智泊AI

首页

应用开发

就业服务

学员喜报

服务通道

新闻中心

实训算力平台

多模态训练营

机器学习训练营

模块一：多模态基础与关键技术 (前4课时)

第1课时

多模态AI概述与发展脉络

第2课时

多模态表示与对齐

第3课时

多模态融合与学习

第4课时

多模态基础架构

Modalities分类：图像、文本、语音、视频、传感器等
多模态研究演进：从浅层融合到统一架构（如VLM/VLA）
关键挑战：模态异构性、对齐机制、时序与空间维度统一
应用场景：AIGC、医疗、自动驾驶、视频分析、安防、推荐

图像表示：CNN,ViT
文本表示：BERT,GPT
语音/音频表示：MFCC,Whisper
视频表示：3D-CNN、SlowFast、Video-Swin Transformer、TimeSformer
表征对齐方法：Early/LateFusion、CrossAttention、CLIP、X-CLIP

融合方式：共享语义空间、跨模态注意力机制
对比学习方法：SimCLR、CLIP、X-CLIP、ALBEF
实战演示：用CLIP实现图文相似检索；用X-CLIP实现图文视频检索

模型剖析：CLIP/BLIP/Flamingo/Kosmos /Video-LLaMA/InternVid
多模态大模型结构：编码器、解码器、交叉模态层
数据集：COCO、Flickr30K、VQA、HowTo100M、YouCook2、Ego4D、ActivityNet

模块二：实战技能构建(第5-8课时)

第5课时

视频问答与视频摘要

第6课时

视频理解与动作识别

第7课时

视频生成与AIGC能力

第8课时

多模态模型微调与评估

视频问答（Video-QA）任务定义：开放式Vs选择式
主流方法：TVQA、VQA-T、UniVL
视频摘要：静地抽取vs语义提炼，Text-to-VideoSummary
实战：用Video-LLaMA进行视频问答；EgoSchema生成视频摘要

动作习胜SlowFast、13D、TSN等架构对比
视频时间建模技巧：TSM、TimeSformer、Video-Swin
应用案例：体育分析、安防监控、行为预测
实战：用SlowFast对视频进行行为分类和剪辑定位

Text-to-Video生成Make-A-Video、Phenaki、Sora等
图像引导视频生成：VideoCrafter、AnimateDiff、Pika
Prompt设计：时间轴控制、主体/背景限定
实战：用VideoCrafter实现从文本描述生成短视频

微调方式LoRA、Adapter、Prompt-tuning(语义微调适配)
多模态评估指标：Recall@k、CIDEr、FVD、CLIPScore
数据挑战：视频数据大小与帧率对齐的影响
实战：用LoRA微调一个短视频文本匹配模型（XID-CLIP）

模块三：行业应用与部署实践(第9-12课时)

第9课时

视频与视觉智能体(VLA)

第10课时

视频推荐与多模态搜索系统

第11课时

视频理解在医疗与工业中的应用

第12课时

开源框架与系统部署

视频+语言智能体架构(VLA)与主动感知能力
LangChain+视频输入+动作输出的管道式智能体
案例：机器人识别视频任务指令并执行（抓取、搬运等）
实战：构建一个视频理解+行动智能体

多模态推荐架构：视频embedding、用户画像、上下文建模
应用场景：短视频平台（抖音、YouTube）、推荐推荐
实战：视频内容理解+用户兴趣召回+TopN排序推荐系统

医疗：术中视频辅助决策、内窥镜视频诊断
工业：设备操作流程识别、异动动作检测
案例：SangClip、VIT基于图像行为识别
实战：用视频理解模型进行一段操作视频的流程标注

开源视频模型：InternVid、Video-LLaMA、X-CLIP、NMAction2
部署方式：Streamlit+赣珠上传、FastAPI实时视频问答接口
实战：部署支持视频问答/摘要/检索的多模态系统

关于我们

联系我们关于智泊

微信客服

湖南智学优课信息科技有限公司版权所有Copyright 2025, All Rights Reserved 湘ICP备2023030772号-5