使用RTX4000系显卡,对PaintRL进行训练时,tensorflow给出报错“Blas GEMM launch failed”。
网络搜索的结果基本认为是显存爆了、缓存问题、cuda版本问题(来源)。
显存通过资源管理器可以确定没有溢出,清空缓存也没有效果。
而cuda版本比较麻烦,因为PaintRL只能用tf1训练,而tf1最高只支持cuda10。
调研后发现,nv维护了一个tf1的分支,用于在cuda11及以上环境中使用tf1,详见此仓库。
通过该仓库安装tf1,即可使用新版cuda,问题解决。