讨论07：伦理与社会影响

🔍 扩展内容 — 本节适合对AI伦理关心所有学员

讨论主题

基础模型的广泛能力带来了前所未有的社会影响。作为AI从业者，我们需要思考：如何负责任地开发和部署AI系统？

On the Opportunities and Risks of Foundation Models (AI伦理部分)
- Bommasani et al., 2021
- https://arxiv.org/abs/2108.07258
- 中文摘要：斯坦福CRFM的基础模型报告中，专门讨论了基础模型带来的社会风险：偏见放大、错误信息、环境影响、劳动力市场冲击等。提出了负责任的基础模型开发框架。
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned
- Ganguli et al., 2022 (Anthropic)
- https://arxiv.org/abs/2209.07858
- 中文摘要：Anthropic的红队测试工作，系统分析了语言模型的安全漏洞随规模扩大的变化趋势，提出了多层次的红队测试方法。
The Irreducible Difficulty of "AI Alignment"
- Rohit et al., 2024
- 中文摘要：分析了AI对齐问题的"不可约难度"——对齐问题的某些根本性的困难可能无法通过技术手段完全解决。
Agents: An Open-Source Framework for Autonomous Language Agents
- AI alignment perspective
- 讨论代理安全性：如何确保自主AI代理的行为可控？

[[MOC-如何AI一切|🗺️ 返回内容地图]]