AI 导论

⭐ 核心路径 — 本讲是课程的起点，所有学员必须掌握

学习目标

完成本讲后，你应该能够：

描述 AI 发展的关键历史节点和当前技术状态
解释为什么多模态是 AI 发展的核心方向
识别不同数据模态（语言、视觉、音频、传感器等）带来的独特挑战
概括本课程的结构、学习路径和预期产出
建立对 AI 研究过程的整体认知框架

课程概览

为什么要开这门课？

AI 正在从"语言模型时代"迈向多模态感知与交互时代。现实世界的数据是多种模态（modalities）的混合体——文字、图像、声音、触觉、传感器读数、医疗影像、音乐、气味等。单一模态的 AI 系统（如纯文本 LLM）已经展现出惊人能力，但要真正理解和辅助人类在真实世界中的活动，AI 必须学会跨越模态边界。

本课程是 MIT MAS.S60 "How to AI (Almost) Anything" 的中文复刻版。课程核心理念：

AI 不仅仅是大语言模型——它能处理的模态远比文本丰富。本课程教你如何将 AI 应用于任何你感兴趣的数据模态。

课程结构

mermaid

graph LR
    A[AI导论] --> B[基础<br/>数据·工具·架构]
    B --> C[多模态AI<br/>对齐·融合·迁移]
    C --> D[大模型<br/>基础模型·多模态·生成式]
    D --> E[人机交互<br/>智能体·推理·安全]

讲座（Lectures）：11 场核心讲座，覆盖从基础到前沿的完整知识体系
讨论课（Discussions）：7 场围绕前沿论文的深入讨论，培养批判性思维
项目（Projects）：学期研究型项目，提案 → 中期 → 终期报告

评分构成

项目	占比
项目提案	10%
项目中期报告	25%
项目终期报告	45%
课堂参与+讨论	20%

详细课程规划请参见 [[00-课程概览/教学大纲|教学大纲]]，不同背景学员的学习路径建议请见 [[00-课程概览/学习指南|学习指南]]。

什么是 AI？

一个简短的历史视角

AI 的概念自 1956 年达特茅斯会议正式提出以来，经历了多次浪潮与寒冬：

时期	关键事件	范式
1950s-60s	达特茅斯会议、感知机、逻辑推理	符号主义
1970s	第一次 AI 寒冬	—
1980s	专家系统、反向传播算法	知识驱动 / 连接主义
1990s	统计学习、SVM、贝叶斯方法	统计学习
2000s	深度学习崛起（Hinton, Bengio, LeCun）	深度学习
2010s	ImageNet 突破、GAN、Transformer	深度学习 2.0
2020s	GPT 系列、多模态大模型、扩散模型	基础模型时代

现代 AI 的核心在于表示学习（representation learning）：从数据中自动发现有用的特征表示，而非人工设计特征。这一范式使得 AI 能够处理越来越复杂和多样化的数据类型。

AI 的能力光谱

当代 AI 系统在以下维度上展现出前所未有的能力：

感知：图像分类、目标检测、语音识别
理解：自然语言理解、视觉推理、常识推理
生成：文本生成、图像/视频生成、音乐创作
推理：逻辑推理、数学证明、代码生成
交互：对话系统、具身智能体、人机协作

当前的关键趋势

规模化（Scaling）：模型参数量、训练数据量和计算量持续增长
多模态化（Multimodalization）：从单模态到多模态的融合
通用化（Generalization）：从专用模型向通用基础模型的演进
工具化（Tool-Use）：AI 学会使用外部工具和 API
具身化（Embodiment）：AI 从数字世界走向物理世界

AI 的多模态愿景

什么是多模态 AI？

多模态 AI（Multimodal AI）研究如何在同一框架中处理和理解多种类型的数据模态。这不仅仅是把多个单模态模型拼在一起，而是要在不同模态间建立深层的语义对齐和交互。

模态的多样性

现实世界的数据模态包括但不限于：

模态	示例	数据特征
语言（Text）	文档、对话、代码	离散、序列化、符号化
视觉（Vision）	图像、视频、3D 扫描	连续、高维、空间结构
音频（Audio）	语音、音乐、环境声	时序、频谱结构
传感器（Sensor）	加速度计、陀螺仪、温度	时序、多通道
医疗（Medical）	MRI、CT、ECG	高维、专业语义
触觉（Haptic）	力反馈、纹理	稀疏、主观
气味/味觉	化学传感器	极其稀疏、标注困难

为什么需要多模态？

互补性：不同模态提供不同侧面的信息，互补可以带来更鲁棒的认知
冗余性：多模态信息包含冗余，有助于纠错和泛化
真实性：真实世界的体验本质上就是多模态的
交互性：人类与世界的交互天然跨越多模态

多模态的核心挑战

如 [[03-多模态/03-01-连接与对齐|连接与对齐]] 中所详述，多模态 AI 面临六大核心挑战：

表示（Representation）：如何将不同模态的数据编码到统一的表示空间？
对齐（Alignment）：如何建立跨模态的元素级对应关系？
融合（Fusion）：如何有效整合来自多个模态的信息？
迁移（Transfer）：如何将知识从一种模态迁移到另一种？
量化（Quantification）：如何衡量多模态交互的强度和类型？
生成（Co-Creation）：如何跨模态协同生成新内容？

本课程学习方法

双重路径设计

本课程为不同背景学员设计了双重路径（详见 [[00-课程概览/学习指南|学习指南]]）：

⭐ 核心路径：所有学员必须掌握——讲座核心内容 + 项目节点 + 必读论文
🔍 深入扩展：适合有基础的学员——讨论课 + 进阶论文精读 + 研究挑战

学习节奏建议

课前：阅读本周阅读.md 中的论文摘要，带着问题来听课
课中：关注核心概念框架，而非技术细节
课后：深入阅读选读论文，动手运行代码示例
项目：将学到的知识融会贯通到自己的研究项目中

项目驱动学习

本课程以项目为核心。你将提出自己的 AI 研究问题，尝试将 AI 应用于你感兴趣的数据模态。项目分三个阶段：

提案（第 3 周）：确认方向和可行性
中期（第 9 周）：展示初步结果
终期（第 14 周）：完整的研究报告

详见 [[项目/项目概述|项目概述]]。

关键概念

概念	定义
模态（Modality）	数据的呈现形式，如文本、图像、音频等
表示学习（Representation Learning）	自动从数据中学习有用特征表示的方法
多模态（Multimodal）	涉及两种或多种数据模态的 AI 系统
基础模型（Foundation Model）	在大规模数据上预训练的通用 AI 模型
对齐（Alignment）	建立不同模态间的语义对应关系
迁移学习（Transfer Learning）	将在一个任务/模态上学到的知识应用到另一个

讨论问题

你认为 AI 能处理的"最奇怪"的数据模态是什么？它可能带来哪些应用？
当前大语言模型已经是多模态的了吗？它们"理解"图像的方式和人类有什么不同？
在你自己的领域或工作中，有哪些数据是多模态的？目前是如何处理的？
多模态 AI 面临的最大技术挑战是什么？社会挑战又是什么？

AI 导论

学习目标

课程概览

为什么要开这门课？

课程结构

评分构成

什么是 AI？

一个简短的历史视角

AI 的能力光谱

当前的关键趋势

AI 的多模态愿景

什么是多模态 AI？

模态的多样性

为什么需要多模态？

多模态的核心挑战

本课程学习方法

双重路径设计

学习节奏建议

项目驱动学习

关键概念

讨论问题

延伸阅读

相关笔记

AI 导论 ​

学习目标 ​

课程概览 ​

为什么要开这门课？ ​

课程结构 ​

评分构成 ​

什么是 AI？ ​

一个简短的历史视角 ​

AI 的能力光谱 ​

当前的关键趋势 ​

AI 的多模态愿景 ​

什么是多模态 AI？ ​

模态的多样性 ​

为什么需要多模态？ ​

多模态的核心挑战 ​

本课程学习方法 ​

双重路径设计 ​

学习节奏建议 ​

项目驱动学习 ​

关键概念 ​

讨论问题 ​

延伸阅读 ​

相关笔记 ​

AI 导论

学习目标

课程概览

为什么要开这门课？

课程结构

评分构成

什么是 AI？

一个简短的历史视角

AI 的能力光谱

当前的关键趋势

AI 的多模态愿景

什么是多模态 AI？

模态的多样性

为什么需要多模态？

多模态的核心挑战

本课程学习方法

双重路径设计

学习节奏建议

项目驱动学习

关键概念

讨论问题

延伸阅读

相关笔记