Skip to content

Latest commit

 

History

History
17 lines (17 loc) · 2.84 KB

多模态.md

File metadata and controls

17 lines (17 loc) · 2.84 KB
名称 来源 说明 状态 备注
综述 NULL NULL NULL NULL
《Multimodal Machine Learning: A Survey and Taxonomy》 arXiv2017 多模态综述:
1 Introduction
2 APPLICATIONS: A HISTORICAL PERSPECTIVE
3 MULTIMODAL REPRESENTATIONS
4 TRANSLATION
5 ALIGNMENT
6 FUSION
7 CO-LEARNING
8 CONCLUSION
done NULL
NULL NULL NULL NULL NULL
《ERNIE-VIL: KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH》 arXiv2020 基于ERNIE的图文多模态预训练模型:
1 ERNIE+图像+场景图谱(实体、属性、关系);
2 场景图通过NLP工具,分析描述构建;
3 图像中的实体通过目标检测工具获得
done NULL
《VideoBERT: A Joint Model for Video and Language Representation Learning》 ICCV2019 基于BERT结果的,字幕+视频多模态预训练模型:
1 字幕通过ASR识别获得
done NULL
《VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis》 AAAI2019 形式非常简单;
长文+文字attention+图文attention;
done NULL
《Supervised Multimodal Bitransformers for Classifying Images and Text》 NULL Facebook多模态模型 NULL NULL
《Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks》 NIPS2019 文本/图片多模态BERT NULL NULL
《Tensor fusion network for multimodal sentiment analysis》 EMNLP 2017 多模态融合TFN:
1 多个模态的向量进行融合操作形成多维Tensor;
2 注意每个维度增加的“1”,这样可以保留单维和双维特征;
3 缺点是参数量巨大,注意体现在多模态融合的多维Tensor和后续接的Dense层;
NULL 《让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘》
跨模态 NULL NULL NULL NULL
《UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning》 ACL2021 百度UNIMO:
1 文本/图像、文本-图像统一模态预训练模型;
2 通过文本改写和图像/文本相似检索扩充pair语料;
3 通过文本-图片多模、文本/图片单模多个任务进行预训练;
4 只有文本-图像多模、文本单模的实验,没有图像的单模实验;
5 图像单模预训练中,回归被mask的图像特征;
NULL NULL
NULL NULL NULL NULL NULL
NULL NULL NULL NULL NULL
NULL NULL NULL NULL NULL
NULL NULL NULL NULL NULL