项目说明(Weeks 12–15)
⭐ 核心路径 — 项目是课程最重要的实践环节
项目概述
本课程不设置考试。课程最后四周完全投入到一个开放式的多模态AI项目中。项目应结合课程前11周学习的基础模型、多模态交互和技术方法,解决一个真实世界问题。
时间安排
| 周次 | 阶段 | 交付物 |
|---|---|---|
| 第12周 | 选题与调研 | 项目提案(1页) |
| 第13周 | 原型实施 | Demo 0.1 |
| 第14周 | 迭代与评估 | 中期报告 |
| 第15周 | 最终展示 | 最终报告+演示+反思文档 |
项目要求
选题范围
项目可以落在以下任一方向:
| 方向 | 描述 | 示例 |
|---|---|---|
| 多模态系统 | 整合≥2种模态的AI系统 | 图文问答、医学影像报告生成、音视频内容分析 |
| 推理应用 | 利用LLM推理能力解决实际任务 | 代码辅助、科学文献总结、决策支持系统 |
| 对齐与安全 | 研究或改进模型对齐 | 红队测试工具、偏见检测、鲁棒性分析 |
| 工具与基础设施 | 让AI更易用或更高效 | 特定领域的提示工具、大模型部署方案 |
| 具身AI | 将多模态模型与物理世界连接 | 机器人控制、环境感知系统 |
具体要求
- 多模态要求:项目必须涉及至少两种数据模态(如文本+图像、文本+音频等)
- 基础模型使用:必须使用至少一个预训练基础模型(通过API或本地部署)
- 评估:必须包含定量或定性的系统评估
- 开放性:鼓励有真实用户场景的项目
评估标准
- 技术实现(30%):系统的完整性、工程质量、方法选择
- 问题定义(20%):问题的重要性、选题的合理性、与课程内容的关联
- 评估与分析(20%):评估指标的选择、结果分析、失败案例分析
- 展示与反思(20%):演示的质量、对项目局限性的认识、未来方向
- 创新性(10%):方法的创造性、与现有工作的差异化
项目资源
推荐工具
- 模型访问:HuggingFace Transformers、OpenAI API、Anthropic API、Gemini API
- 多模态处理:CLIP、LLaVA、Qwen-VL、Whisper
- 框架:PyTorch、LangChain、HuggingFace Hub
- 部署:Gradio、Streamlit(快速原型)、vLLM(推理优化)
选题灵感
以下仅提供灵感方向——真正的项目来自于你对自己领域的理解。带着你正在解决的问题来上课。
- 个人知识管理助手:用多模态LLM整理笔记、提取观点、生成知识图谱
- 多模态简历筛选系统:同时分析简历文本和面试视频的语调、表情
- 科研论文插图解读器:为论文图表生成自然语言解释
- 多语言/多模态学习工具:结合图像、文本和音频的个性化学习系统
- 无障碍辅助工具:将环境视觉信息转化为语音描述
参考文献
- How to Write a Good Project Proposal — MIT MAS.S60课程指南
- On the Opportunities and Risks of Foundation Models (§7: 项目建议)
- 课程笔记中所有 [[双向链接]] 指向的技术方法均可作为项目参考
[[04-大模型/04-01-大模型基础|← 回到大模型基础]] [[MOC-如何AI一切|🗺️ 返回内容地图]]
