llama3.2 #290

xinxyou · 2024-12-17T08:41:55Z

以llama2-70b当教师模型，llama3.2-3b当学生模型，训练过程正常，loss稳步下降，但是用保存的模型推理，会出现大量不通顺的英文混杂中文和韩文，以及无法停止的问题，请问该如何解决？

t1101675 · 2024-12-17T20:54:54Z

minillm 需要 teacher model 和 student model 的 tokenization 保持一致。llama2 和 llama3.2 的 vocabulary 大小不同，有可能是这里出的问题。

可以尝试将 llama2-70B 换成 llama3.1-70B，保证和 student model tokenization 一致。

Harryjun · 2024-12-18T09:52:34Z

@t1101675 这个问题挺多的，不考虑兼容一下吗？或者提供个工具处理下

xinxyou · 2024-12-18T10:02:13Z

感谢回复！
对于教师模型和学生模型，我使用的词表都是自己的同一套词表，这部分没问题，但我忽略了两个模型的位置编码配置，尤其是max_position_embeddings这个参数，我调整后现在问题已经解决了。
供遇到相同问题的小伙伴们参考。

t1101675 · 2024-12-18T13:40:11Z

@t1101675 这个问题挺多的，不考虑兼容一下吗？或者提供个工具处理下

我们近期会考虑兼容一下 qwen2.5 词表大小不同的问题

Provide feedback