- Modalities分类:图像、文本、语音、视频、传感器等
 - 多模态研究演进:从浅层融合到统一架构(如VLM/VLA)
 - 关键挑战:模态异构性、对齐机制、时序与空间维度统一
 - 应用场景:AIGC、医疗、自动驾驶、视频分析、安防、推荐
 
- 图像表示:CNN,ViT
 - 文本表示:BERT,GPT
 - 语音/音频表示:MFCC,Whisper
 - 视频表示:3D-CNN、SlowFast、Video-Swin Transformer、TimeSformer
 - 表征对齐方法:Early/LateFusion、CrossAttention、CLIP、X-CLIP
 
- 融合方式:共享语义空间、跨模态注意力机制
 - 对比学习方法:SimCLR、CLIP、X-CLIP、ALBEF
 - 实战演示:用CLIP实现图文相似检索;用X-CLIP实现图文视频检索
 
- 模型剖析:CLIP/BLIP/Flamingo/Kosmos /Video-LLaMA/InternVid
 - 多模态大模型结构:编码器、解码器、交叉模态层
 - 数据集:COCO、Flickr30K、VQA、HowTo100M、YouCook2、Ego4D、ActivityNet
 
                