课程笔记 30 分钟精华版

Agentic AI 课程精要

Andrew Ng 8 小时课程浓缩总结

🎯 5 个核心模块 🔄 4 种设计模式 📊 评估框架

💡 核心洞察

将 LLM 包装在智能体工作流中,比直接调用效果显著更好、更快、更模块化 00:04:20

模块 1
工作流基础
模块 2
反思模式
模块 3
工具使用
模块 4
评估实践 ⭐
模块 5
高度自主

模块 1: Agentic AI 基础

1️⃣ 什么是 Agentic AI?

Agentic AI 工作流是基于 LLM 的应用通过执行多个步骤来完成任务的过程 00:01:24

较低自主性

步骤预定义且清晰明确

1. 创建大纲
2. 网络研究
3. 写初稿
4. 修订完善

✓ 更强控制力

较高自主性

给定工具和目标,自主决策

网络搜索
档案搜索
自主决策使用工具

✓ 更多创造性

2️⃣ 三大核心组件

1. Models

AI 模型本身,如 LLM 或多模态模型

00:04:51

2. Tools

赋予智能体的功能:搜索、数据库查询、代码执行

00:05:01

3. Evaluations ⭐

"构建 AI 智能体的另一半"

00:08:36

模块 2 & 3: 智能体设计模式(较低自主性)

模式 1: Reflection(反思)

让 AI 生成初稿后,指示它"回顾并改进"。这种简单的两步流程(草稿 + 反思)比单步请求效果好得多 00:12:48

📝 初稿 🔍 反思 ✨ 优化版本

模式 2: Tool Use(工具使用)

赋予智能体工具访问权限。关键是必须定义工具并在系统提示中告知智能体工具的存在和用途 00:14:32

示例:个人助理智能体

任务:"在周四找一个空闲时段"

make_appointment
check_calendar
delete_appointment

实现方式:代码函数 或 Anthropic's MCP 协议 00:15:54

模块 4: 实践技巧与评估(Evals)⭐ 最重要

Evals 是衡量智能体性能和系统性改进的客观方法 00:16:33

评估框架:2x2 矩阵

客观 + 有真实值

答案是二元的(对/错)+ 每个输入有唯一正确答案

示例:发票提取智能体

问题:混淆"到期日期"和"发票日期" 00:17:38

EVAL: extracted_date == ground_truth_date

→ 结果:相等 或 不相等 00:18:48

主观 + 有标准

答案质量非二元 + 有黄金标准

示例:研究智能体写论文

主题:"黑洞科学" 00:20:00

LLM as a Judge 00:20:52

  1. 手动创建关键主题清单
  2. 例如:Event Horizon, 射电望远镜
  3. 用另一个 LLM"评判"论文
  4. 计算覆盖主题数量给分

客观 + 无个别真实值

统一标准适用所有输出

示例:营销文案智能体

规则:文案始终少于 10 个单词

EVAL: len(text) <= 10

00:22:30

主观 + 无标准

评估方式灵活多样

根据具体场景设计评估策略

模块 5: 高度自主智能体模式(实验性)

这些模式可控性较低,但可能产生"真正优秀"甚至"神奇"的结果 00:24:26 00:26:38

模式 1: Planning(规划)

智能体自己规划解决复杂查询的计划,然后执行该计划

客户问题:

"你们有库存的圆形太阳镜,价格低于 $100 吗?" 00:24:42

Planning LLM 生成的计划:

  1. 1 使用 get_item_description 查找圆形太阳镜
  2. 2 使用 check_inventory 检查库存
  3. 3 使用 get_item_price 筛选 < $100 的商品

00:25:50

模式 2: Multi-Agent Systems(多智能体系统)

多个不同智能体协同工作产生最终结果,类似人类专家团队 00:27:01

核心直觉:

一个人(单智能体)尝试做所有事情会不堪重负。团队(多智能体)中每个成员专精不同领域,产生更好结果 00:27:11

示例:营销团队智能体 00:27:44

Researcher

研究趋势

Designer

创建视觉

Writer

编写报告

讲师的课程评价

1️⃣

过于理论化:缺乏部署和实际获取用户的实践细节

00:29:12
2️⃣

代码导向:所有作业都是基于代码的,容易让人误以为必须会编程

✓ 实际上这些系统可以用无代码工具构建

00:29:40

关键要点总结

🎯 核心理念

智能体工作流 > 直接 LLM 调用

📐 自主性光谱

从预定义步骤到完全自主决策

🛠️ 三大支柱

Models + Tools + Evaluations

⭐ 最重要模块

Evaluations(评估)