名称	来源	说明	状态	备注
综述	NULL	NULL	NULL	NULL
《Multimodal Machine Learning: A Survey and Taxonomy》	arXiv2017	多模态综述： 1 Introduction 2 APPLICATIONS: A HISTORICAL PERSPECTIVE 3 MULTIMODAL REPRESENTATIONS 4 TRANSLATION 5 ALIGNMENT 6 FUSION 7 CO-LEARNING 8 CONCLUSION	done	NULL
NULL	NULL	NULL	NULL	NULL
《ERNIE-VIL: KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH》	arXiv2020	基于ERNIE的图文多模态预训练模型： 1 ERNIE+图像+场景图谱（实体、属性、关系）； 2 场景图通过NLP工具，分析描述构建； 3 图像中的实体通过目标检测工具获得	done	NULL
《VideoBERT: A Joint Model for Video and Language Representation Learning》	ICCV2019	基于BERT结果的，字幕+视频多模态预训练模型： 1 字幕通过ASR识别获得	done	NULL
《VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis》	AAAI2019	形式非常简单; 长文+文字attention+图文attention;	done	NULL
《Supervised Multimodal Bitransformers for Classifying Images and Text》	NULL	Facebook多模态模型	NULL	NULL
《Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks》	NIPS2019	文本/图片多模态BERT	NULL	NULL
《Tensor fusion network for multimodal sentiment analysis》	EMNLP 2017	多模态融合TFN: 1 多个模态的向量进行融合操作形成多维Tensor； 2 注意每个维度增加的“1”，这样可以保留单维和双维特征； 3 缺点是参数量巨大，注意体现在多模态融合的多维Tensor和后续接的Dense层；	NULL	《让机器读懂视频：亿级淘宝视频背后的多模态AI算法揭秘》
跨模态	NULL	NULL	NULL	NULL
《UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning》	ACL2021	百度UNIMO： 1 文本/图像、文本-图像统一模态预训练模型； 2 通过文本改写和图像/文本相似检索扩充pair语料； 3 通过文本-图片多模、文本/图片单模多个任务进行预训练； 4 只有文本-图像多模、文本单模的实验，没有图像的单模实验； 5 图像单模预训练中，回归被mask的图像特征；	NULL	NULL
NULL	NULL	NULL	NULL	NULL
NULL	NULL	NULL	NULL	NULL
NULL	NULL	NULL	NULL	NULL
NULL	NULL	NULL	NULL	NULL

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

多模态.md

多模态.md

Files

多模态.md

Latest commit

History

多模态.md

File metadata and controls