| 第1模块 全连接⽹络、CNN、RNN 的基本原理 |
|||
| 神经⽹络的基本结构:输⼊层、隐藏层、输出层 | |||
| 感知机与多层感知机(MLP)的计算机制 | |||
| 前向传播与反向传播的数学原理 | |||
| 卷积神经⽹络(CNN)的卷积、池化、特征图计算 | |||
| 循环神经⽹络(RNN)的结构特点、梯度消失/爆炸问题 | |||
| CNN vs RNN的任务适⽤场景对⽐ | |||
| 激活函数、损失函数、优化器基础 | |||
| 第2模块 AlexNet 实现与多模态⼤模型基础 |
|||
| AlexNet 的整体架构与创新点(ReLU、Dropout、重叠池化) | |||
| AlexNet 在 ImageNet 上的训练细节与典型参数设置 | |||
| VGG ⽹络结构与特征层级设计 | |||
| GoogleNet、ResNet 的核⼼思想与差异 | |||
| 多模态⼤模型(VLM / VLA)定义与基本组成 | |||
| 不同模态数据集的类型与构建⽅法(图像/⽂本/⾳频) | |||
| 开发环境搭建:Anaconda 的安装与基础使⽤ | |||
| 第3模块 GoogleNet(Inception)⽹络深⼊解析 |
|||
| Inception 模块的设计思想与多尺度卷积 | |||
| 1×1 卷积降维的作⽤与通道融合 | |||
| GoogLeNet 的整体⽹络结构(22 层 / 辅助分类器) | |||
| ⽹络复杂度与计算效率优化 | |||
| Inception V1 → V2 → V3 的演进 | |||
| 实例:GoogleNet 在分类任务中的应⽤流程 | |||
| 第4模块 经典 Transformer 架构解析 |
|||
| 输入嵌入与位置编码(绝对/相对位置编码) | |||
| Self-Attention 的数学计算流程 | |||
| Encoder–Decoder 结构详解 | |||
| Multi-Head Attention 的作用与并行机制 | |||
| 残差连接、LayerNorm、Feed Forward 层结构 | |||
| Transformer 解决 RNN 长依赖问题的本质 | |||
| Transformer 在 NLP 与 CV 中跨模态扩展 | |||
| 第5模块 注意⼒机制与多头注意⼒机制 |
|||
| 注意⼒机制的基本思想及 Q/K/V 建模 | |||
| 点积注意⼒ vs 加性注意⼒ | |||
| Multi-Head Attention 的分头机制与聚合⽅式 | |||
| 注意⼒矩阵的可视化与可解释性 | |||
| 局部注意⼒、稀疏注意⼒、因果注意⼒ | |||
| 注意⼒机制在 NLP、CV、跨模态任务中的应⽤ | |||
| 注意⼒机制与 Transformer 的协同⼯作原理 | |||
| 第6模块 基于注意⼒机制的机器翻译实践 |
|||
| 机器翻译的基本任务定义 | |||
| Encoder–Decoder RNN/GRU/LSTM 架构 | |||
| Attention 在神经机器翻译中的优势 | |||
| 平行语料构建与 tokenization | |||
| 训练指标 BLEU 的计算方式 | |||
| 模型预测中的 Beam Search、贪心解码 | |||
| 英 ↔ 西 翻译任务完整训练流程复现 | |||
| 第7模块 莎⼠⽐亚⻛格⽂本⽣成 + 多模态前沿综述 |
|||
| RNN/LSTM ⽣成式模型的核⼼思路 | |||
| ⽂本⻛格迁移的建模⽅式 | |||
| 通过字符级模型⽣成莎⼠⽐亚⻛⽂本 | |||
| 多头注意⼒在⻛格⽣成中的作⽤ | |||
| ⽂本⽣成的温度、top-k、top-p 解码 | |||
| 多模态前沿进展(VL、VLM、Video-Language)综述 | |||
| 当前多模态⼤模型⽅向的研究趋势与典型架构 | |||
| 第8模块 图像描述(Image Captioning)与Qwen VL模型项⽬实践 |
|||
| 图像编码器(CNN/ViT)与⽂本解码器(LSTM/Transformer)结合⽅式 | |||
| Encoder → Decoder 结构在跨模态任务中的应⽤ | |||
| 经典模型:Show and Tell / Show Attend and Tell | |||
| 注意⼒可视化:图像区域注意⼒热⼒图 | |||
| COCO Caption 数据集结构 | |||
| 评价指标:BLEU、CIDEr、ROUGE、METEOR | |||
| 图像—⽂本⽣成的端到端训练流程 | |||
| 第9模块 图像描述(Image Captioning)与Qwen VL模型项⽬实践 |
|||
| VL ⼤模型架构:视觉编码器 + ⽂本解码器 | |||
| QwenVL2.5 的结构与特征(tokenizer、patch embedding、vision tower) | |||
| LoRA / QLoRA 在多模态微调中的应⽤⽅式 | |||
| 多模态指令微调(VLM Instruction Tuning) | |||
| 视觉问答(VQA)、OCR、图⽂理解的任务构建 | |||
| 训练样本格式:image + text + conversation | |||
| 微调后的模型评估⽅式(准确率、可解释性、⽰例对⽐) | |||
| 第10模块 课程总结与项⽬实践 |
|||
| 全课程知识结构回顾:CNN → RNN → Transformer → 多模态 | |||
| 各类⽹络的对⽐总结与适⽤任务梳理 | |||
| 多模态任务(翻译/⽣成/图⽂/视频)的统⼀建模逻辑 | |||
| 常⻅训练技巧与模型调优策略总结 | |||
| 磁州窑⽂物视频项⽬解析: |
|
||
| 深度学习学习路线与后续能⼒提升⽅向 | |||
| 学习成果复盘与问答 | |||