- Modalities分类:图像、文本、语音、视频、传感器等
- 多模态研究演进:从浅层融合到统一架构(如VLM/VLA)
- 关键挑战:模态异构性、对齐机制、时序与空间维度统一
- 应用场景:AIGC、医疗、自动驾驶、视频分析、安防、推荐
- 图像表示:CNN,ViT
- 文本表示:BERT,GPT
- 语音/音频表示:MFCC,Whisper
- 视频表示:3D-CNN、SlowFast、Video-Swin Transformer、TimeSformer
- 表征对齐方法:Early/LateFusion、CrossAttention、CLIP、X-CLIP
- 融合方式:共享语义空间、跨模态注意力机制
- 对比学习方法:SimCLR、CLIP、X-CLIP、ALBEF
- 实战演示:用CLIP实现图文相似检索;用X-CLIP实现图文视频检索
- 模型剖析:CLIP/BLIP/Flamingo/Kosmos /Video-LLaMA/InternVid
- 多模态大模型结构:编码器、解码器、交叉模态层
- 数据集:COCO、Flickr30K、VQA、HowTo100M、YouCook2、Ego4D、ActivityNet