Skip to content

项目说明(Weeks 12–15)

核心路径 — 项目是课程最重要的实践环节

项目概述

本课程不设置考试。课程最后四周完全投入到一个开放式的多模态AI项目中。项目应结合课程前11周学习的基础模型、多模态交互和技术方法,解决一个真实世界问题。

时间安排

周次阶段交付物
第12周选题与调研项目提案(1页)
第13周原型实施Demo 0.1
第14周迭代与评估中期报告
第15周最终展示最终报告+演示+反思文档

项目要求

选题范围

项目可以落在以下任一方向:

方向描述示例
多模态系统整合≥2种模态的AI系统图文问答、医学影像报告生成、音视频内容分析
推理应用利用LLM推理能力解决实际任务代码辅助、科学文献总结、决策支持系统
对齐与安全研究或改进模型对齐红队测试工具、偏见检测、鲁棒性分析
工具与基础设施让AI更易用或更高效特定领域的提示工具、大模型部署方案
具身AI将多模态模型与物理世界连接机器人控制、环境感知系统

具体要求

  1. 多模态要求:项目必须涉及至少两种数据模态(如文本+图像、文本+音频等)
  2. 基础模型使用:必须使用至少一个预训练基础模型(通过API或本地部署)
  3. 评估:必须包含定量或定性的系统评估
  4. 开放性:鼓励有真实用户场景的项目

评估标准

  • 技术实现(30%):系统的完整性、工程质量、方法选择
  • 问题定义(20%):问题的重要性、选题的合理性、与课程内容的关联
  • 评估与分析(20%):评估指标的选择、结果分析、失败案例分析
  • 展示与反思(20%):演示的质量、对项目局限性的认识、未来方向
  • 创新性(10%):方法的创造性、与现有工作的差异化

项目资源

推荐工具

  • 模型访问:HuggingFace Transformers、OpenAI API、Anthropic API、Gemini API
  • 多模态处理:CLIP、LLaVA、Qwen-VL、Whisper
  • 框架:PyTorch、LangChain、HuggingFace Hub
  • 部署:Gradio、Streamlit(快速原型)、vLLM(推理优化)

选题灵感

以下仅提供灵感方向——真正的项目来自于你对自己领域的理解。带着你正在解决的问题来上课。

  • 个人知识管理助手:用多模态LLM整理笔记、提取观点、生成知识图谱
  • 多模态简历筛选系统:同时分析简历文本和面试视频的语调、表情
  • 科研论文插图解读器:为论文图表生成自然语言解释
  • 多语言/多模态学习工具:结合图像、文本和音频的个性化学习系统
  • 无障碍辅助工具:将环境视觉信息转化为语音描述

参考文献

  • How to Write a Good Project Proposal — MIT MAS.S60课程指南
  • On the Opportunities and Risks of Foundation Models (§7: 项目建议)
  • 课程笔记中所有 [[双向链接]] 指向的技术方法均可作为项目参考

[[04-大模型/04-01-大模型基础|← 回到大模型基础]] [[MOC-如何AI一切|🗺️ 返回内容地图]]

基于 MIT MAS.S60 How to AI (Almost) Anything 翻译改编