一台服务器三个GPU跑bert模型时，总会突然崩掉 #13

yzc1103 · 2019-10-21T13:25:50Z

我觉得可能是batch_size太大，但是调小也不管用。会不会是负载不均衡。有没有一些建议或解决方法。

yzc1103 · 2019-10-21T13:26:13Z

yilifzf · 2019-10-21T13:36:17Z

gpu显存是多大呢？显存过载的话可以调小max_seq_length和train_batch_size，我的经验是单块的8G gpu可以跑max_legnth=128和batch_size=24的。三块gpu应该是绰绰有余的，建议观察nvidia-smi的gpu使用状态，对应调整就好啦。

yzc1103 · 2019-10-21T13:45:53Z

我试了调小max_seq_length=32，64和train_batch_size=24，16，8，之类的，但是不管用。
显存是12196MiB，跑的时候我看着显存使用并不多，但是会出现突然有一块GPU利用率达到99%的情况。那我是不是需要规定一块跑呢

yzc1103 · 2019-10-21T14:32:30Z

我规定了一块GPU跑，现在的看着是成功了。谢谢您啦~

littlefenliu · 2021-01-04T07:30:32Z

请问楼上跑了多久啊

Provide feedback