Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

llama3.2 #290

Open
xinxyou opened this issue Dec 17, 2024 · 4 comments
Open

llama3.2 #290

xinxyou opened this issue Dec 17, 2024 · 4 comments

Comments

@xinxyou
Copy link

xinxyou commented Dec 17, 2024

以llama2-70b当教师模型,llama3.2-3b当学生模型,训练过程正常,loss稳步下降,但是用保存的模型推理,会出现大量不通顺的英文混杂中文和韩文,以及无法停止的问题,请问该如何解决?

@t1101675
Copy link
Contributor

minillm 需要 teacher model 和 student model 的 tokenization 保持一致。llama2 和 llama3.2 的 vocabulary 大小不同,有可能是这里出的问题。

可以尝试将 llama2-70B 换成 llama3.1-70B,保证和 student model tokenization 一致。

@Harryjun
Copy link

@t1101675 这个问题挺多的,不考虑兼容一下吗?或者提供个工具处理下

@xinxyou
Copy link
Author

xinxyou commented Dec 18, 2024

感谢回复!
对于教师模型和学生模型,我使用的词表都是自己的同一套词表,这部分没问题,但我忽略了两个模型的位置编码配置,尤其是max_position_embeddings这个参数,我调整后现在问题已经解决了。
供遇到相同问题的小伙伴们参考。

@t1101675
Copy link
Contributor

@t1101675 这个问题挺多的,不考虑兼容一下吗?或者提供个工具处理下

我们近期会考虑兼容一下 qwen2.5 词表大小不同的问题

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants