苏

2026-04-27

2.8k

11m

学习「评测迭代」的笔记。整体路径是：从生产 trace 出发，经粗筛 + 精筛两层过滤，再到 prompt / 模型两条优化路线的闭环。

text

生产 trace
    │
    ├── 粗筛层（便宜、自动、覆盖广）
    │     ├─ LLM-as-Judge 抽样打分    ← 主观质量
    │     ├─ 用户点踩                  ← 显式负反馈
    │     └─ 停留时长 / 复制率 / 重问率 ← 隐式行为信号
    │
    ├── 精筛层（贵、人工、高质量）
    │     └─ 标注师挑 hard case → 评测集 + 训练集
    │
    └── 优化层（两条路并行）
          ├─ Prompt 层：自进化 + 蒙特卡洛搜 fewshot
          └─ 模型层：SFT（学会做对） / DPO（学会偏好）

主要学习内容：

抽样 Trace
LLM as a Judge
蒙特卡洛优化 / 蒙特卡洛搜索树
SFT 和 DPO 的区别

技术笔记 / AI与大模型

LLM Eval Trace LLM-as-Judge SFT DPO Monte Carlo RLHF

Stats Card

2026-05-01

技术笔记 / 工具与环境

Github Github Stats

从 Chatbot 到 Multi-Agent：一部架构演进史 (v2)

2026-04-13

22.9k

81m

这是口述 + Claude 协作整理的架构长文，v2 版本。v1 在从 Chatbot 到 Multi-Agent (v1) ，v2 诞生过程中的"中肯 review"在十个盲点。

v2 相对于 v1 的主要变化：在开头补上了"为什么要 Agent"这个一直被架构文章忽略的哲学问题；把"模型与 harness 共进化"作为一条贯穿全文的暗线；在 B 阶段显著加厚 eval 的讨论；在 B+ 新增了"失败模式目录""成本经济学""Prompt Injection 防御"三块；在 B++ 新增了"Human-in-the-loop 作为设计轴"和"现场保存与还原"；在 C 阶段补充了 Gemini function calling 的差异和 Computer Use 作为另一种范式。

这不是一份对 v1 的打补丁，而是一次重写——主干保留，但加入了 v1 缺失的三条主线：为什么要做、会怎么失败、怎么被经济性反噬。

技术笔记 / AI与大模型

Agent LLM 架构 harness Multi-Agent

北京、海、雨

2025-08-16

741

北京，六月底便已经非常闷热。步入七月后，更觉再无穿外套的必要，就连傍晚的风也变得粘稠。

个人随笔

随笔

对自己写的东西做一次中肯 Review：Agent 架构文的十个盲点

2026-04-13

1.9k

我把 v1 的 Agent 架构长文交给 Claude 做了一次"中肯评价"，让它 think harder，告诉我哪里写错了、哪里视野不够、哪里是我看不到的盲点。结果是一份比我想象中更狠的 review。这篇文章就是这份 review 本身——作为一份"对自己写的东西做系统 review"的模板，同时也是 v2 改写的起点。
v1 见这里。

技术笔记 / AI与大模型

Agent LLM 反思 Review 写作

DSPy 0x01

2026-05-01

2.6k

11m

新框架层出不穷，或许你也想通过机器学习训练得到最佳 prompt？