当 Andrej Karpathy 开始"编程一个研究组织"

最近，Andrej Karpathy 在 nanochat 上做了一个非常有代表性的实验。

他没有只运行一个 agent。而是一次性运行了 8 个：

他的 TL;DR 很直接：目前不太行。有点混乱。

但从系统角度看，这个实验非常有意思。

实验：用 AI 组织做研究

Karpathy 尝试了几种组织结构：

1. 8 个独立研究员 每个 agent 自主开分支，独立探索。

2. 1 个 Chief Scientist + 8 个 Junior 一个 agent 负责拆解任务和分配工作，其余执行。

这已经不是在"用 AI 写代码"。而是在测试：AI 组织是否能做研究？

整个研究组织建立在非常简单的基础设施上：

这看起来像一个"AI 研究办公室"——可以实时观察每个 agent 的工作，也可以随时接管。

视觉上非常优雅。但结果并不优雅。

问题不是执行能力。问题是研究能力。

Karpathy 观察到，这些 agent：

一个典型例子：

某个 agent “发现"增大 hidden size 会降低 validation loss。但：

这是典型的 spurious result。agent 很擅长实现想法，但不会严格审视想法。

这次实验的核心洞察并不是：“AI 研究员还不够好”。

而是：工程师开始在编程一个组织。

这里的"源码"变成了：

甚至每天的 standup，本质上也是"org code”。

nanochat 只是一个 eval。真正的问题是：给定任意任务，这个研究组织能否持续地产生有效进展？

从更宏观的角度看，这可能预示着工程范式的变化：

未来的工程师，不只是写代码的人。而是设计系统的人。

Karpathy 的实验目前结论很现实：

但方向已经清晰：真正的杠杆在于组织设计。

如果你感兴趣，这篇还可以升级成：