Ниже приведено подробное описание разнообразных наборов данных,
которые мы предлагаем использовать для инструктивного дообучения мультимодальной модели под задачи, схожие с соревнованием.
Основная задача мультимодального supervised fine-tuning - заложить в модели способность не только извлекать полезную информацию
из визуальной и аудио модальностей, но и умение применять эту информацию для решения более комплексных задач, как то:
ведение мультимодального диалога, развернутый ответ на вопросы по видео и детальное нарративное описание видеозаписи.
Поэтому предлагаемые наборы данных мы разделили на две категории:
- Video Instruction Tuning Datasets
- Video Conversation Datasets
Это инструктивный видео-центричный мультимодальный набор данных, основанный на видео из датасета WebVid-10M.
Он содержит детализированные последовательные описания видеозаписей и диалоги на их основе,
полученные с помощью ChatGPT из покадровых описаний.
Набор данных, состоящий из 2 млн. пар изображение-текст и видео-текст из разнообразных источников.
VideoChat2 объединил различные датасеты в единый формат, отфильтровал изначальные некачественные пары,
сбалансировал в рамках 6-ти задач: мультимодальный диалог (Conversation), классификация (Classification),
детальное (Detailed Caption) и краткое (Simple Caption) описание изображения/видео, мультимодальное рассуждение
(Reasoning) и визуальный QA (VQA).
Набор данных, состоящий из 100 000 пар видео-инструкция, которые были получены путем комбинации полуавтоматической и человеческой разметки. Каждая пара состоит из видеозаписи и соответствующей инструкции в виде вопрос-ответ (QA). Покрывает такие задачи как:
- видео саммаризация;
- вопросы/ответы, основанные на детальном описании видеозаписи;
- генеративные вопросы/ответы;
В качестве источников видео и кратких описаний использовался сабсет ActivityNet-200 датасета.
Набор данных, который основывается на Video-ChatGPT VideoInstruct.
Этот датасет улучшает качество разметки путем фильтрации шума и нерелевантных деталей.
Набор данных, который содержит 58 000 вопросно-ответных пар, аннотированных вручную людьми. Вопросы основываются на 5800 видеозаписях, полученных из популярного набора данных ActivityNet и описаны в генеративной open-ended (OE) постановке. В разрезе сплитов элементы набора данных распределяются следующим образом:
- Обучающий сплит: 32,000 QA пар на 3,200 видео
- Валидационный сплит: 18,000 QA пар на 1,800 видео
- Тестовый сплит: 8,000 QA пар на 800 видео
NExT-QA содержит 5440 видео и порядка 52 тыс. вручную размеченных вопросно-ответных пар, сгруппированных по трем типам: обычные, временные и описательные вопросы.
NExT-GQA (short for Grounded) датасет расширяет разметку NExT-QA набора данных через добавление 10.5 тыс. временных меток начала и конца ответа на видеозаписи для соответствующей пары вопрос/ответ. Эти метки размечены вручную.
📄 Статья NExT-QA
🗃️ NExT-QA
📄 Статья NExT-GQA 🗃️ NExT-GQA
Набор данных, который состоит из 60 тыс. пар вопрос-ответ, 240 тыс. дополнительных вариантов ответов,
144 тыс. графов ситуаций, структурирующих информацию об объектах и их взаимодействиях на видео,
а также 22 тыс. обрезанных видеозаписей. Видео в датасете заимствованы из видеозаписей человеческой активности,
на которых изображены процессы взаимодействия человека и окружающей среды в разнообразных повседневных сценах.
Созданные вопросы к этим видеозаписям разделяются на 4 категории, которых охватывают разные навыки модели
понимания видео модальности.