Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

蒸馏版似乎有bug #285

Closed
egmkang opened this issue Feb 5, 2025 · 14 comments
Closed

蒸馏版似乎有bug #285

egmkang opened this issue Feb 5, 2025 · 14 comments

Comments

@egmkang
Copy link

egmkang commented Feb 5, 2025

本地部署了7B和8B的蒸馏版, 刚好都问了一个历史问题, 回答的答案都是错的. 完整版的R1没这个问题.

附上问答流程和截图

7B问答流程.txt

Image

Image

@LingChen-tsjmdlc
Copy link

可以尝试把“高级配置”里面的“Temperature (温度)”调小一点(可以为0)。因为这是在回答更加事实一点的问题。
Image


  • 下面是官方推荐的Temperature (温度) 设置:
    Image

@egmkang
Copy link
Author

egmkang commented Feb 6, 2025

Image

@egmkang
Copy link
Author

egmkang commented Feb 6, 2025

@LingChen-tsjmdlc 晚上回去试一下, 不过14B的就是好的, LM Studio默认参数

@shennun
Copy link

shennun commented Feb 6, 2025

你的不管7B,14B能跟官方的比么?人家是671B,肯定参数越高越准确啊,在本地搭的都是瞎玩,你别当真,还有网上的都是出教程骗钱的。

@LingChen-tsjmdlc
Copy link

你的不管7B,14B能跟官方的比么?人家是671B,肯定参数越高越准确啊,在本地搭的都是瞎玩,你别当真,还有网上的都是出教程骗钱的。
@shennun

还是不能比的。但是:

  1. 我们没有谈论这个参数大小的问题,而且这个 Issues 是讨论 AI 模型的对事实性处理的能力,该如何去调参调优;
  2. 参数越高越准确,但是能精确多少呢?请读一下论文。事实其实蒸馏模型比原模型差不了多少,理论上只要数据集洗的够干净,大模型的效果只要够好,蒸馏出来的模型就会相对更好;
  3. 本地搭的都是瞎玩吗?no,不知道你是否上班了没,请问在公司上的问题如果要交给 AI 处理,那你还会选择联网的模型吗?反正我个人是不会的。同时在资源有限的情况下,小模型可以以较低的成本实现不错的效果也足够了。感觉你不是开发者这一类的,我的个人本地搭建的目的是为了全屋智能化和游戏智能化,特别是全屋智能化,我的麦克风可是在每时每刻录制家里的声音的呢。
  4. 肯定参数越高越准确有点过于绝对了,我相信只要学过基础的AI知识都不会说的这么绝对。建议你看看这篇论文(读英文的能力还是有的吧):https://arxiv.org/pdf/1706.03762
  5. 这图片我刚刚测试的,我的16.5B参数打不过14B,同样是 DeepSeek 的底模,请问该这么解释?
    Image

@egmkang 记得解决了问题之后关闭该 issue 哦~ o(^@^)o

@shennun
Copy link

shennun commented Feb 6, 2025 via email

@youngjuning
Copy link

你的不管7B,14B能跟官方的比么?人家是671B,肯定参数越高越准确啊,在本地搭的都是瞎玩,你别当真,还有网上的都是出教程骗钱的。

淘宝上还能卖出去几百份

@egmkang
Copy link
Author

egmkang commented Feb 6, 2025

@LingChen-tsjmdlc 我把温度拉到0了, 还是有一点不太对

Image

@egmkang
Copy link
Author

egmkang commented Feb 6, 2025

7B和8B的确实有一点不太对

Image

@LingChen-tsjmdlc
Copy link

那就不太清楚了,估计确实是体量过小,层数不够导致的 ≡(▔﹏▔)≡

@LingChen-tsjmdlc
Copy link

如果电脑允许,尽量还是用 14B-Q4 或者 32B-Q4。
我电脑 4080水(16GB显存)+ AMD R9 5950X + 64 GB 4200MHz内存 刚好跑32B-Q4,不过我 14B-Q4 用的居多,毕竟我电脑还有些服务器也搭在上面。
用了几天下来 14B-Q4 并不比 32B-Q4 差多少(我使用主要是负责推理和代码能力)。
如果你电脑可以接受的话上上14B的模型使用吧。

@egmkang
Copy link
Author

egmkang commented Feb 6, 2025

@LingChen-tsjmdlc 可以把7B, 8B的删掉了, 确实不太好用, 用内存能推动14B的, 凑合着用吧

@egmkang egmkang closed this as completed Feb 6, 2025
@sevenwong
Copy link

好好用网页版不行吗,折腾那点乐趣其实都是低级趣味

@egmkang
Copy link
Author

egmkang commented Feb 7, 2025

@sevenwong 没得用, 不稳定, 经常点了没反映

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants