NVDashboard 使ってみた (jupyter環境でGPUを使う方へ) - Qiitaという方法があるみたい。
nvidia-smi -l 1
と
free -s 1 -m
を実行して監視するのもあり。
特に
nvidia-smi -l 1 | awk '/Default/ {print $9 " " $10 " " $11}'
free -s 1 -m | awk '/Mem:/ {print $4 " / " $2}'
辺りが良いか?
nvidia-smiでGPUのメモリ使用量を継続的に監視する - Qiitaも良さそう。
Overfit and underfit | TensorFlow Coreのチュートリアルをしていたら Allocation of xxxxx exceeds 10% of system memory.
みたいなログが Keras から出てきて Jupyter lab がシャットダウンする現象が出た。どうやら VRAM ではなく普通に RAM のほうが枯渇したようで、n1-highmem-2
ではスペック不足ということのようだった。GCPオベンキョ(7) — Deep Learning VM の VM インスタンス作成 - らんだむな記憶で触れたようにその辺は後から変更できるようだったので、n1-highmem-4
に変更したら Jupyter lab がシャットダウンしなくなった。RAM の使用量が 20,186 MB に到達していたので、そりゃー足りんわなということで。