名称 | 来源 | 说明 | 状态 | 备注 |
---|---|---|---|---|
综述 | NULL | NULL | NULL | NULL |
《Multimodal Machine Learning: A Survey and Taxonomy》 | arXiv2017 | 多模态综述: 1 Introduction 2 APPLICATIONS: A HISTORICAL PERSPECTIVE 3 MULTIMODAL REPRESENTATIONS 4 TRANSLATION 5 ALIGNMENT 6 FUSION 7 CO-LEARNING 8 CONCLUSION |
done | NULL |
NULL | NULL | NULL | NULL | NULL |
《ERNIE-VIL: KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH》 | arXiv2020 | 基于ERNIE的图文多模态预训练模型: 1 ERNIE+图像+场景图谱(实体、属性、关系); 2 场景图通过NLP工具,分析描述构建; 3 图像中的实体通过目标检测工具获得 |
done | NULL |
《VideoBERT: A Joint Model for Video and Language Representation Learning》 | ICCV2019 | 基于BERT结果的,字幕+视频多模态预训练模型: 1 字幕通过ASR识别获得 |
done | NULL |
《VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis》 | AAAI2019 | 形式非常简单; 长文+文字attention+图文attention; |
done | NULL |
《Supervised Multimodal Bitransformers for Classifying Images and Text》 | NULL | Facebook多模态模型 | NULL | NULL |
《Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks》 | NIPS2019 | 文本/图片多模态BERT | NULL | NULL |
《Tensor fusion network for multimodal sentiment analysis》 | EMNLP 2017 | 多模态融合TFN: 1 多个模态的向量进行融合操作形成多维Tensor; 2 注意每个维度增加的“1”,这样可以保留单维和双维特征; 3 缺点是参数量巨大,注意体现在多模态融合的多维Tensor和后续接的Dense层; |
NULL | 《让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘》 |
跨模态 | NULL | NULL | NULL | NULL |
《UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning》 | ACL2021 | 百度UNIMO: 1 文本/图像、文本-图像统一模态预训练模型; 2 通过文本改写和图像/文本相似检索扩充pair语料; 3 通过文本-图片多模、文本/图片单模多个任务进行预训练; 4 只有文本-图像多模、文本单模的实验,没有图像的单模实验; 5 图像单模预训练中,回归被mask的图像特征; |
NULL | NULL |
NULL | NULL | NULL | NULL | NULL |
NULL | NULL | NULL | NULL | NULL |
NULL | NULL | NULL | NULL | NULL |
NULL | NULL | NULL | NULL | NULL |