要变强,要变成更好的人!
04-27 评测迭代

学习「评测迭代」的笔记。整体路径是:从生产 trace 出发,经粗筛 + 精筛两层过滤,再到 prompt / 模型两条优化路线的闭环。

text
生产 trace
    │
    ├── 粗筛层(便宜、自动、覆盖广)
    │     ├─ LLM-as-Judge 抽样打分    ← 主观质量
    │     ├─ 用户点踩                  ← 显式负反馈
    │     └─ 停留时长 / 复制率 / 重问率 ← 隐式行为信号
    │
    ├── 精筛层(贵、人工、高质量)
    │     └─ 标注师挑 hard case → 评测集 + 训练集
    │
    └── 优化层(两条路并行)
          ├─ Prompt 层:自进化 + 蒙特卡洛搜 fewshot
          └─ 模型层:SFT(学会做对) / DPO(学会偏好)

主要学习内容:

  • 抽样 Trace
  • LLM as a Judge
  • 蒙特卡洛优化 / 蒙特卡洛搜索树
  • SFT 和 DPO 的区别
Stats Card
GitHub Stats
LeetCode Stats
从 Chatbot 到 Multi-Agent:一部架构演进史 (v2)

这是口述 + Claude 协作整理的架构长文,v2 版本。v1 在 从 Chatbot 到 Multi-Agent (v1) ,v2 诞生过程中的"中肯 review"在 十个盲点

v2 相对于 v1 的主要变化:在开头补上了"为什么要 Agent"这个一直被架构文章忽略的哲学问题;把"模型与 harness 共进化"作为一条贯穿全文的暗线;在 B 阶段显著加厚 eval 的讨论;在 B+ 新增了"失败模式目录""成本经济学""Prompt Injection 防御"三块;在 B++ 新增了"Human-in-the-loop 作为设计轴"和"现场保存与还原";在 C 阶段补充了 Gemini function calling 的差异和 Computer Use 作为另一种范式。

这不是一份对 v1 的打补丁,而是一次重写——主干保留,但加入了 v1 缺失的三条主线:为什么要做、会怎么失败、怎么被经济性反噬

北京、海、雨

北京,六月底便已经非常闷热。步入七月后,更觉再无穿外套的必要,就连傍晚的风也变得粘稠。

对自己写的东西做一次中肯 Review:Agent 架构文的十个盲点

我把 v1 的 Agent 架构长文交给 Claude 做了一次"中肯评价",让它 think harder,告诉我哪里写错了、哪里视野不够、哪里是我看不到的盲点。结果是一份比我想象中更狠的 review。这篇文章就是这份 review 本身——作为一份"对自己写的东西做系统 review"的模板,同时也是 v2 改写的起点。

v1 见 这里

DSPy 0x01

新框架层出不穷,或许你也想通过机器学习训练得到最佳 prompt?

dspylogo
Google Prompt Engineering 白皮书阅读笔记

You don't need to be a data scientist or a machine learning engineer – everyone can write a prompt.

CleanShot 2025-04-16 at 12.47.13@2x.png