-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
使用 gpu 推理时输出的是!,使用 cpu 推理则正常 #9
Comments
hi @luhui 你试过用chat.py吗,目前chat_genai.py在集显上是有些问题。 |
@openvino-dev-samples hi,我用 chat.py 测试,在 cpu 上能够正常运行,但是使用 gpu 提示。 使用 GPU 推理的报错信息使用CPU推理则正常这是因为集显的兼容性问题么? |
@luhui 感谢分享,GPU编译时间比CPU久是正常的,集显上的这个问题我们还在解决中。 |
@openvino-dev-samples 我重新下载模型重试,成功了,用的 genai。 但是模型转化没有使用 export.py,而是用的 optimum-cli,export.py 报如下的错误,好像是前面 save model 后没有释放文件句柄。 |
另外我目前测试了 qwen2.5 系列的 3B、7B,发现 cpu 输出 token 的性能比 gpu 好 3 倍左右。 模型转化命令如下: optimum-cli export openvino --model '.\model\qwen\Qwen2__5-3B-Instruct' --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8 Qwen2.5-3B-Instruct-int4-ov |
@luhui 感谢分享,看来是因为量化参数问题,我已经在convert.py上做了修改 |
目前的优化策略主要围绕Ultra CPU的集显,Iris的集显性能是会差一些 |
硬件型号
11th Gen Intel(R) Core(TM) i5-1135G7 @ 2.40GHz 2.42 GHz,集成显卡 Iris
问题现象
使用 gpu 推理结果如下
使用 cpu 推理结果正常
转化指令
推理代码
The text was updated successfully, but these errors were encountered: