Problem：MillionAID dataset #18

wangjiawen-123 · 2023-07-10T13:09:24Z

请问作者，文中使用的Million数据集在官网下载地址中，train文件只有1w张图片 1.82G，与所提到的MillionAID有百万图片不符，请问具体实验是使用多少图片做训练和测试的？

期待您的回复，谢谢解答

DotWang · 2023-07-10T13:46:28Z

@wangjiawen-123 我们把原始训练集(1w张)和原始测试集(99w张)共同拿来做预训练。实际操作时，为了保证和先前的RSP监督预训练的可比较性，我们仍然是将100w张图片分成两部分，首先挑出51000张，然后拿剩下的95w张做预训练，见Section III-A-4)，

XinzheGeng · 2025-01-25T01:54:04Z

@wangjiawen-123 我们把原始训练集(1w张)和原始测试集(99w张)共同拿来做预训练。实际操作时，为了保证和先前的RSP监督预训练的可比较性，我们仍然是将100w张图片分成两部分，首先挑出51000张，然后拿剩下的95w张做预训练，见Section III-A-4)，

请问51000张是以什么规则挑出的呢，是否可以提供原始的txt

DotWang · 2025-01-25T15:36:33Z

@XinzheGeng 数据集划分规则RSP那篇文章有写，如果我没记错的话，应该是从每类随机挑1000张组成验证集，剩下的作为训练集

XinzheGeng · 2025-01-26T01:49:15Z

@XinzheGeng 数据集划分规则RSP那篇文章有写，如果我没记错的话，应该是从每类随机挑1000张组成验证集，剩下的作为训练集

谢谢，看到了

Provide feedback