AI 导论
⭐ 核心路径 — 本讲是课程的起点,所有学员必须掌握
学习目标
完成本讲后,你应该能够:
- 描述 AI 发展的关键历史节点和当前技术状态
- 解释 为什么多模态是 AI 发展的核心方向
- 识别 不同数据模态(语言、视觉、音频、传感器等)带来的独特挑战
- 概括 本课程的结构、学习路径和预期产出
- 建立 对 AI 研究过程的整体认知框架
课程概览
为什么要开这门课?
AI 正在从"语言模型时代"迈向多模态感知与交互时代。现实世界的数据是多种模态(modalities)的混合体——文字、图像、声音、触觉、传感器读数、医疗影像、音乐、气味等。单一模态的 AI 系统(如纯文本 LLM)已经展现出惊人能力,但要真正理解和辅助人类在真实世界中的活动,AI 必须学会跨越模态边界。
本课程是 MIT MAS.S60 "How to AI (Almost) Anything" 的中文复刻版。课程核心理念:
AI 不仅仅是大语言模型——它能处理的模态远比文本丰富。本课程教你如何将 AI 应用于任何你感兴趣的数据模态。
课程结构
graph LR
A[AI导论] --> B[基础<br/>数据·工具·架构]
B --> C[多模态AI<br/>对齐·融合·迁移]
C --> D[大模型<br/>基础模型·多模态·生成式]
D --> E[人机交互<br/>智能体·推理·安全]- 讲座(Lectures):11 场核心讲座,覆盖从基础到前沿的完整知识体系
- 讨论课(Discussions):7 场围绕前沿论文的深入讨论,培养批判性思维
- 项目(Projects):学期研究型项目,提案 → 中期 → 终期报告
评分构成
| 项目 | 占比 |
|---|---|
| 项目提案 | 10% |
| 项目中期报告 | 25% |
| 项目终期报告 | 45% |
| 课堂参与+讨论 | 20% |
详细课程规划请参见 [[00-课程概览/教学大纲|教学大纲]],不同背景学员的学习路径建议请见 [[00-课程概览/学习指南|学习指南]]。
什么是 AI?
一个简短的历史视角
AI 的概念自 1956 年达特茅斯会议正式提出以来,经历了多次浪潮与寒冬:
| 时期 | 关键事件 | 范式 |
|---|---|---|
| 1950s-60s | 达特茅斯会议、感知机、逻辑推理 | 符号主义 |
| 1970s | 第一次 AI 寒冬 | — |
| 1980s | 专家系统、反向传播算法 | 知识驱动 / 连接主义 |
| 1990s | 统计学习、SVM、贝叶斯方法 | 统计学习 |
| 2000s | 深度学习崛起(Hinton, Bengio, LeCun) | 深度学习 |
| 2010s | ImageNet 突破、GAN、Transformer | 深度学习 2.0 |
| 2020s | GPT 系列、多模态大模型、扩散模型 | 基础模型时代 |
现代 AI 的核心在于表示学习(representation learning):从数据中自动发现有用的特征表示,而非人工设计特征。这一范式使得 AI 能够处理越来越复杂和多样化的数据类型。
AI 的能力光谱
当代 AI 系统在以下维度上展现出前所未有的能力:
- 感知:图像分类、目标检测、语音识别
- 理解:自然语言理解、视觉推理、常识推理
- 生成:文本生成、图像/视频生成、音乐创作
- 推理:逻辑推理、数学证明、代码生成
- 交互:对话系统、具身智能体、人机协作
当前的关键趋势
- 规模化(Scaling):模型参数量、训练数据量和计算量持续增长
- 多模态化(Multimodalization):从单模态到多模态的融合
- 通用化(Generalization):从专用模型向通用基础模型的演进
- 工具化(Tool-Use):AI 学会使用外部工具和 API
- 具身化(Embodiment):AI 从数字世界走向物理世界
AI 的多模态愿景
什么是多模态 AI?
多模态 AI(Multimodal AI)研究如何在同一框架中处理和理解多种类型的数据模态。这不仅仅是把多个单模态模型拼在一起,而是要在不同模态间建立深层的语义对齐和交互。
模态的多样性
现实世界的数据模态包括但不限于:
| 模态 | 示例 | 数据特征 |
|---|---|---|
| 语言(Text) | 文档、对话、代码 | 离散、序列化、符号化 |
| 视觉(Vision) | 图像、视频、3D 扫描 | 连续、高维、空间结构 |
| 音频(Audio) | 语音、音乐、环境声 | 时序、频谱结构 |
| 传感器(Sensor) | 加速度计、陀螺仪、温度 | 时序、多通道 |
| 医疗(Medical) | MRI、CT、ECG | 高维、专业语义 |
| 触觉(Haptic) | 力反馈、纹理 | 稀疏、主观 |
| 气味/味觉 | 化学传感器 | 极其稀疏、标注困难 |
为什么需要多模态?
- 互补性:不同模态提供不同侧面的信息,互补可以带来更鲁棒的认知
- 冗余性:多模态信息包含冗余,有助于纠错和泛化
- 真实性:真实世界的体验本质上就是多模态的
- 交互性:人类与世界的交互天然跨越多模态
多模态的核心挑战
如 [[03-多模态/03-01-连接与对齐|连接与对齐]] 中所详述,多模态 AI 面临六大核心挑战:
- 表示(Representation):如何将不同模态的数据编码到统一的表示空间?
- 对齐(Alignment):如何建立跨模态的元素级对应关系?
- 融合(Fusion):如何有效整合来自多个模态的信息?
- 迁移(Transfer):如何将知识从一种模态迁移到另一种?
- 量化(Quantification):如何衡量多模态交互的强度和类型?
- 生成(Co-Creation):如何跨模态协同生成新内容?
本课程学习方法
双重路径设计
本课程为不同背景学员设计了双重路径(详见 [[00-课程概览/学习指南|学习指南]]):
- ⭐ 核心路径:所有学员必须掌握——讲座核心内容 + 项目节点 + 必读论文
- 🔍 深入扩展:适合有基础的学员——讨论课 + 进阶论文精读 + 研究挑战
学习节奏建议
- 课前:阅读本周阅读.md 中的论文摘要,带着问题来听课
- 课中:关注核心概念框架,而非技术细节
- 课后:深入阅读选读论文,动手运行代码示例
- 项目:将学到的知识融会贯通到自己的研究项目中
项目驱动学习
本课程以项目为核心。你将提出自己的 AI 研究问题,尝试将 AI 应用于你感兴趣的数据模态。项目分三个阶段:
- 提案(第 3 周):确认方向和可行性
- 中期(第 9 周):展示初步结果
- 终期(第 14 周):完整的研究报告
详见 [[项目/项目概述|项目概述]]。
关键概念
| 概念 | 定义 |
|---|---|
| 模态(Modality) | 数据的呈现形式,如文本、图像、音频等 |
| 表示学习(Representation Learning) | 自动从数据中学习有用特征表示的方法 |
| 多模态(Multimodal) | 涉及两种或多种数据模态的 AI 系统 |
| 基础模型(Foundation Model) | 在大规模数据上预训练的通用 AI 模型 |
| 对齐(Alignment) | 建立不同模态间的语义对应关系 |
| 迁移学习(Transfer Learning) | 将在一个任务/模态上学到的知识应用到另一个 |
讨论问题
- 你认为 AI 能处理的"最奇怪"的数据模态是什么?它可能带来哪些应用?
- 当前大语言模型已经是多模态的了吗?它们"理解"图像的方式和人类有什么不同?
- 在你自己的领域或工作中,有哪些数据是多模态的?目前是如何处理的?
- 多模态 AI 面临的最大技术挑战是什么?社会挑战又是什么?
延伸阅读
- 必读:Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions(本课程核心综述)
- 推荐:Representation Learning: A Review and New Perspectives
- 扩展:MIT 原版讲座视频(YouTube)
相关笔记
- [[01-AI导论/01-02-AI研究方法|AI研究方法]]
- [[01-AI导论/01-03-本周阅读|本周阅读]]
- [[00-课程概览/教学大纲|教学大纲]]
- [[00-课程概览/学习指南|学习指南]]
- [[03-多模态/03-01-连接与对齐|连接与对齐]]
- [[项目/项目概述|项目概述]]
