项目说明（Weeks 12–15）

⭐ 核心路径 — 项目是课程最重要的实践环节

项目概述

本课程不设置考试。课程最后四周完全投入到一个开放式的多模态AI项目中。项目应结合课程前11周学习的基础模型、多模态交互和技术方法，解决一个真实世界问题。

时间安排

周次	阶段	交付物
第12周	选题与调研	项目提案（1页）
第13周	原型实施	Demo 0.1
第14周	迭代与评估	中期报告
第15周	最终展示	最终报告+演示+反思文档

项目要求

选题范围

项目可以落在以下任一方向：

方向	描述	示例
多模态系统	整合≥2种模态的AI系统	图文问答、医学影像报告生成、音视频内容分析
推理应用	利用LLM推理能力解决实际任务	代码辅助、科学文献总结、决策支持系统
对齐与安全	研究或改进模型对齐	红队测试工具、偏见检测、鲁棒性分析
工具与基础设施	让AI更易用或更高效	特定领域的提示工具、大模型部署方案
具身AI	将多模态模型与物理世界连接	机器人控制、环境感知系统

具体要求

多模态要求：项目必须涉及至少两种数据模态（如文本+图像、文本+音频等）
基础模型使用：必须使用至少一个预训练基础模型（通过API或本地部署）
评估：必须包含定量或定性的系统评估
开放性：鼓励有真实用户场景的项目

评估标准

技术实现（30%）：系统的完整性、工程质量、方法选择
问题定义（20%）：问题的重要性、选题的合理性、与课程内容的关联
评估与分析（20%）：评估指标的选择、结果分析、失败案例分析
展示与反思（20%）：演示的质量、对项目局限性的认识、未来方向
创新性（10%）：方法的创造性、与现有工作的差异化

项目资源

推荐工具

模型访问：HuggingFace Transformers、OpenAI API、Anthropic API、Gemini API
多模态处理：CLIP、LLaVA、Qwen-VL、Whisper
框架：PyTorch、LangChain、HuggingFace Hub
部署：Gradio、Streamlit（快速原型）、vLLM（推理优化）

选题灵感

以下仅提供灵感方向——真正的项目来自于你对自己领域的理解。带着你正在解决的问题来上课。

个人知识管理助手：用多模态LLM整理笔记、提取观点、生成知识图谱
多模态简历筛选系统：同时分析简历文本和面试视频的语调、表情
科研论文插图解读器：为论文图表生成自然语言解释
多语言/多模态学习工具：结合图像、文本和音频的个性化学习系统
无障碍辅助工具：将环境视觉信息转化为语音描述

参考文献

How to Write a Good Project Proposal — MIT MAS.S60课程指南
On the Opportunities and Risks of Foundation Models (§7: 项目建议)
课程笔记中所有 [[双向链接]] 指向的技术方法均可作为项目参考

[[04-大模型/04-01-大模型基础|← 回到大模型基础]] [[MOC-如何AI一切|🗺️ 返回内容地图]]