Skip to content

AI 导论

核心路径 — 本讲是课程的起点,所有学员必须掌握

学习目标

完成本讲后,你应该能够:

  1. 描述 AI 发展的关键历史节点和当前技术状态
  2. 解释 为什么多模态是 AI 发展的核心方向
  3. 识别 不同数据模态(语言、视觉、音频、传感器等)带来的独特挑战
  4. 概括 本课程的结构、学习路径和预期产出
  5. 建立 对 AI 研究过程的整体认知框架

课程概览

为什么要开这门课?

AI 正在从"语言模型时代"迈向多模态感知与交互时代。现实世界的数据是多种模态(modalities)的混合体——文字、图像、声音、触觉、传感器读数、医疗影像、音乐、气味等。单一模态的 AI 系统(如纯文本 LLM)已经展现出惊人能力,但要真正理解和辅助人类在真实世界中的活动,AI 必须学会跨越模态边界

本课程是 MIT MAS.S60 "How to AI (Almost) Anything" 的中文复刻版。课程核心理念:

AI 不仅仅是大语言模型——它能处理的模态远比文本丰富。本课程教你如何将 AI 应用于任何你感兴趣的数据模态

课程结构

mermaid
graph LR
    A[AI导论] --> B[基础<br/>数据·工具·架构]
    B --> C[多模态AI<br/>对齐·融合·迁移]
    C --> D[大模型<br/>基础模型·多模态·生成式]
    D --> E[人机交互<br/>智能体·推理·安全]
  • 讲座(Lectures):11 场核心讲座,覆盖从基础到前沿的完整知识体系
  • 讨论课(Discussions):7 场围绕前沿论文的深入讨论,培养批判性思维
  • 项目(Projects):学期研究型项目,提案 → 中期 → 终期报告

评分构成

项目占比
项目提案10%
项目中期报告25%
项目终期报告45%
课堂参与+讨论20%

详细课程规划请参见 [[00-课程概览/教学大纲|教学大纲]],不同背景学员的学习路径建议请见 [[00-课程概览/学习指南|学习指南]]。

什么是 AI?

一个简短的历史视角

AI 的概念自 1956 年达特茅斯会议正式提出以来,经历了多次浪潮与寒冬:

时期关键事件范式
1950s-60s达特茅斯会议、感知机、逻辑推理符号主义
1970s第一次 AI 寒冬
1980s专家系统、反向传播算法知识驱动 / 连接主义
1990s统计学习、SVM、贝叶斯方法统计学习
2000s深度学习崛起(Hinton, Bengio, LeCun)深度学习
2010sImageNet 突破、GAN、Transformer深度学习 2.0
2020sGPT 系列、多模态大模型、扩散模型基础模型时代

现代 AI 的核心在于表示学习(representation learning):从数据中自动发现有用的特征表示,而非人工设计特征。这一范式使得 AI 能够处理越来越复杂和多样化的数据类型。

AI 的能力光谱

当代 AI 系统在以下维度上展现出前所未有的能力:

  • 感知:图像分类、目标检测、语音识别
  • 理解:自然语言理解、视觉推理、常识推理
  • 生成:文本生成、图像/视频生成、音乐创作
  • 推理:逻辑推理、数学证明、代码生成
  • 交互:对话系统、具身智能体、人机协作

当前的关键趋势

  1. 规模化(Scaling):模型参数量、训练数据量和计算量持续增长
  2. 多模态化(Multimodalization):从单模态到多模态的融合
  3. 通用化(Generalization):从专用模型向通用基础模型的演进
  4. 工具化(Tool-Use):AI 学会使用外部工具和 API
  5. 具身化(Embodiment):AI 从数字世界走向物理世界

AI 的多模态愿景

什么是多模态 AI?

多模态 AI(Multimodal AI)研究如何在同一框架中处理和理解多种类型的数据模态。这不仅仅是把多个单模态模型拼在一起,而是要在不同模态间建立深层的语义对齐和交互。

模态的多样性

现实世界的数据模态包括但不限于:

模态示例数据特征
语言(Text)文档、对话、代码离散、序列化、符号化
视觉(Vision)图像、视频、3D 扫描连续、高维、空间结构
音频(Audio)语音、音乐、环境声时序、频谱结构
传感器(Sensor)加速度计、陀螺仪、温度时序、多通道
医疗(Medical)MRI、CT、ECG高维、专业语义
触觉(Haptic)力反馈、纹理稀疏、主观
气味/味觉化学传感器极其稀疏、标注困难

为什么需要多模态?

  • 互补性:不同模态提供不同侧面的信息,互补可以带来更鲁棒的认知
  • 冗余性:多模态信息包含冗余,有助于纠错和泛化
  • 真实性:真实世界的体验本质上就是多模态的
  • 交互性:人类与世界的交互天然跨越多模态

多模态的核心挑战

如 [[03-多模态/03-01-连接与对齐|连接与对齐]] 中所详述,多模态 AI 面临六大核心挑战:

  1. 表示(Representation):如何将不同模态的数据编码到统一的表示空间?
  2. 对齐(Alignment):如何建立跨模态的元素级对应关系?
  3. 融合(Fusion):如何有效整合来自多个模态的信息?
  4. 迁移(Transfer):如何将知识从一种模态迁移到另一种?
  5. 量化(Quantification):如何衡量多模态交互的强度和类型?
  6. 生成(Co-Creation):如何跨模态协同生成新内容?

本课程学习方法

双重路径设计

本课程为不同背景学员设计了双重路径(详见 [[00-课程概览/学习指南|学习指南]]):

  • ⭐ 核心路径:所有学员必须掌握——讲座核心内容 + 项目节点 + 必读论文
  • 🔍 深入扩展:适合有基础的学员——讨论课 + 进阶论文精读 + 研究挑战

学习节奏建议

  1. 课前:阅读本周阅读.md 中的论文摘要,带着问题来听课
  2. 课中:关注核心概念框架,而非技术细节
  3. 课后:深入阅读选读论文,动手运行代码示例
  4. 项目:将学到的知识融会贯通到自己的研究项目中

项目驱动学习

本课程以项目为核心。你将提出自己的 AI 研究问题,尝试将 AI 应用于你感兴趣的数据模态。项目分三个阶段:

  • 提案(第 3 周):确认方向和可行性
  • 中期(第 9 周):展示初步结果
  • 终期(第 14 周):完整的研究报告

详见 [[项目/项目概述|项目概述]]。

关键概念

概念定义
模态(Modality)数据的呈现形式,如文本、图像、音频等
表示学习(Representation Learning)自动从数据中学习有用特征表示的方法
多模态(Multimodal)涉及两种或多种数据模态的 AI 系统
基础模型(Foundation Model)在大规模数据上预训练的通用 AI 模型
对齐(Alignment)建立不同模态间的语义对应关系
迁移学习(Transfer Learning)将在一个任务/模态上学到的知识应用到另一个

讨论问题

  1. 你认为 AI 能处理的"最奇怪"的数据模态是什么?它可能带来哪些应用?
  2. 当前大语言模型已经是多模态的了吗?它们"理解"图像的方式和人类有什么不同?
  3. 在你自己的领域或工作中,有哪些数据是多模态的?目前是如何处理的?
  4. 多模态 AI 面临的最大技术挑战是什么?社会挑战又是什么?

延伸阅读

相关笔记

  • [[01-AI导论/01-02-AI研究方法|AI研究方法]]
  • [[01-AI导论/01-03-本周阅读|本周阅读]]
  • [[00-课程概览/教学大纲|教学大纲]]
  • [[00-课程概览/学习指南|学习指南]]
  • [[03-多模态/03-01-连接与对齐|连接与对齐]]
  • [[项目/项目概述|项目概述]]

基于 MIT MAS.S60 How to AI (Almost) Anything 翻译改编