Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于代码实验的一些问题 #7

Open
woshierniu opened this issue Aug 2, 2021 · 1 comment
Open

关于代码实验的一些问题 #7

woshierniu opened this issue Aug 2, 2021 · 1 comment

Comments

@woshierniu
Copy link

你好,感谢团队大大的贡献。关于代码实验我有些问题,希望能得到解答o(╥﹏╥)o
1、训练语言模型时候,验证集是原数据完整的验证集吗?
2、语言模型生成数据时,新的词不超过上次的生成99%在代码里是不是没有体现?
3、NER实验中,例如在1K的情况下,一个训练集就是1K条原始训练集,另一个训练集是1K数据复制n次与augmentation的数据混合(即n*1k + augmentation大小)吗?还有NER实验的验证集和测试集都是原数据完整的验证、测试数据集吗?

@Bosheng2020
Copy link

您好!不好意思,最近比较忙,没有及时回复。

  1. 我们当时用的验证集是原数据完整的验证集。如果从low resource的角度 用部分验证集也是可以的。
  2. 99%这个在代码没有体现可以自己写个脚本筛选。
  3. 是的。一个训练集就是1K条原始训练集,另一个训练集是1K数据复制n次与augmentation的数据混合(即n*1k + augmentation大小)NER实验的验证集和测试集都是原数据完整的验证、测试数据集。如果从low resource的角度 用部分验证集也是可以的。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants