科学瓶颈已变?陶哲轩坦言:海量AI论文正淹没同行评审

频道:科技 日期: 浏览:617 作者:杨志强

00:00:00

Dwarkesh Patel:

今天我和Terrence Tao对谈。Terrence,我想先请你讲讲开普勒是如何发现行星运动定律的,因为我觉得这会是讨论AI与数学的一个很好的切入点。

Terrence Tao:

开普勒在学习这些理论时注意到,各行星轨道的大小比例似乎具有某种几何意义。他提出了一个理论:如果取地球的轨道球面,外面套一个正方体,那么包围正方体的外球面几乎恰好与火星的轨道吻合,以此类推。当时已知有六颗行星,行星之间有五个间隔,而恰好存在五种柏拉图正多面体——正方体、正四面体、正二十面体、正八面体和正十二面体。他认为这个理论极其美妙,仿佛上帝按照柏拉图正多面体的数学完美性来设计了行星系统。

开普勒开始与第谷合作,但第谷对数据非常吝惜,每次只给他一小部分。最终开普勒基本上是偷走了这些数据——他抄录了数据,还不得不与布拉赫的后人打了一场官司。拿到数据后,令他失望的是,他那个美妙的柏拉图立体理论并不完全成立,数据与理论大约相差百分之十。他尝试了各种修补方法,移动圆的位置之类的,但就是不太对。

他在这个问题上工作了很多年。最终他找到了利用数据推算行星实际轨道的方法,这需要天才级别的数据分析。他发现轨道实际上是椭圆而非圆形,这对他来说非常震惊。然后他得出了行星运动的前两条定律——椭圆轨道定律和等面积定律。又过了十年,在收集了更多数据之后——最远的行星如土星和木星最难搞定——他终于发现了第三定律:行星完成一圈轨道所需的时间与其到太阳距离的某个幂次成正比。

这就是著名的开普勒行星运动三定律。但他对这些定律没有任何解释,完全是从实验数据中得出的。直到一个世纪后,牛顿才提出了一个同时解释这三条定律的理论。

00:04:09

Dwarkesh Patel:

我想提出一个类比:开普勒就像一个高温(high temperature)的LLM。牛顿后来给出了行星运动三定律为何成立的解释。开普勒发现这些定律、推算出行星相对轨道的过程确实是天才之作。但纵观他的整个职业生涯,他一直在尝试各种随机的关系。事实上,他写下第三定律的那本书叫《世界的和谐》,第三定律只是书中的附带内容。那本书的主题是各个行星都有不同的"和声",地球之所以有这么多饥荒和苦难,是因为地球的音符是"mi fa mi"。满篇都是这类随机的占星术内容,但其中就藏着那个立方-平方定律,它揭示了行星周期与到太阳距离之间的关系。如果把它和牛顿的F=ma以及向心加速度公式结合起来,就能推导出万有引力的反比平方律。

我之所以觉得这个故事很有意思,是因为LLM完全可以做这种事——花二十年不断尝试各种随机关系,其中很多毫无道理,但只要有一个可验证的数据库,比如布拉赫的数据集。你可以试音符、试柏拉图立体、试各种几何关系,只要有一个成立并能被验证,这些经验规律就能驱动真正深层的科学进步。

Terrence Tao:

传统上,当我们谈论科学史时,"想法的产生"一直是科学中最受推崇的部分。但一个科学问题涉及很多步骤:你需要识别一个问题,而且得是一个好问题、一个有成果的问题;然后你需要收集数据,制定分析数据的策略,提出假设;然后你需要提出一个好的假设并加以验证;最后还要写出来并解释——有十几个不同的环节。但我们所赞美的,都是那些"灵光一闪"的天才时刻。

开普勒确实需要循环尝试许多想法,其中好几个没有成功,我敢说还有很多他根本没发表的,因为根本不符合数据。这是科学过程的重要组成部分——尝试各种各样的东西,看看哪些有效。但正如你所说,这必须有同等程度的验证来匹配,否则就是垃圾。

我们赞美开普勒,但也应该赞美布拉赫那种一丝不苟的数据收集工作——他的观测精度比之前所有的观测高出十倍。正是那多出来的一位小数点的精度,对开普勒得出结果至关重要。而且开普勒使用了欧几里得几何等当时最先进的数学来拟合数据模型。所以科学进步需要所有环节协同——数据、理论和假设的生成缺一不可。

00:07:26

我不确定在今天,假设的生成还是科学的瓶颈。科学在过去几个世纪发生了很大变化。经典的两大科学范式是理论和实验。二十世纪又加入了数值模拟——可以用计算机模拟来检验理论。最后在二十世纪末,我们进入了大数据时代。现在很多新进展实际上是由大规模数据集驱动的——先收集大量数据,再从中提取模式。这和传统科学方法不太一样:传统上你先做几个观察或凭空产生一个想法,然后收集数据来检验。现在几乎是反过来的——先收集大数据,再尝试从中得出假设。开普勒也许算是最早的数据科学家之一,但即使是他,也不是从第谷的数据集出发去分析的,他一开始就有预设的理论。这种先有理论再找数据的方式,似乎越来越不是我们取得进展的方式了,因为数据实在是太庞大、太有用了。

Dwarkesh Patel:

有意思。不过我觉得你描述的二十世纪科学模式,其实恰好就是开普勒的经历。他确实在1595-1596年先提出了多边形和柏拉图立体的理论,但那些是错的。几年后他获得了布拉赫的数据,然后花了二十年不断尝试各种东西才得到那个经验规律。所以这其实更接近数据驱动的模式——布拉赫的数据类似于某种大规模数据集。如果没有那些数据,开普勒就只能写写和声理论和柏拉图立体的书,根本没有东西可以验证。

Terrence Tao:

没错,数据极其重要。我想强调的区别是:传统上你先提出假设,再用数据检验;但现在有了机器学习和统计分析,你可以直接从数据出发,用统计方法发现以前难以发现的规律。开普勒的第三定律有点像后者,只不过他当时没有上千个数据点,只有大约六个——每颗行星对应一个轨道周期和到太阳的距离。他对这六个数据点做了我们现在所说的回归分析,拟合出了那个平方-立方定律,这很了不起。但实际上他相当幸运,因为六个数据点就能得到正确结论,这个样本量并不够可靠。

也许开普勒没有像强调前两条定律那样突出第三定律,一个原因就是即使他没有现代统计学知识,他也本能地知道六个数据点只能得出试探性的结论。

00:11:44

Dwarkesh Patel:

更明确地问一下这个类比:未来我们会有越来越聪明的AI,数以百万计,它们可以去搜寻各种经验规律。但听起来你并不认为科学的瓶颈在于为每个领域找到更多类似行星运动第三定律那样的东西——让后人可以说"我们需要解释这个,来推导一下万有引力反比平方律"?

Terrence Tao:

AI基本上已经把想法生成的成本降到了接近零,这很类似于互联网把通信成本降到了接近零——这是一件了不起的事情,但它本身并不直接创造丰富。现在瓶颈变了。我们突然处于这样一种状态:人们可以为某个科学问题生成成千上万种理论,然后我们必须去验证和评估它们。这要求我们改变科学的组织结构来应对。

传统上我们就是通过建造"围墙"来过滤的。在AI垃圾内容出现之前,我们就已经有很多业余科学家提出自己的宇宙理论,其中大部分价值很低。于是我们建立了同行评审和出版体系来筛选高信号的想法。但现在我们可以大规模生成各种可能的解释,其中有好的,也有大量糟糕的,人类审稿人已经不堪重负——许多期刊报告说AI驱动的投稿正在淹没他们的审稿系统。

00:14:13

Dwarkesh Patel:

Terrence Tao:

很大程度上靠的是时间检验。许多伟大的想法在最初提出时并没有获得很好的反响,直到后来其他科学家意识到可以将其进一步发展并应用到自己的领域。深度学习本身就是一个例子——它长期以来只是AI的一个小众方向,完全通过训练数据而非第一性原理推理来获取答案,这种思路曾非常有争议,经过很长时间才开始结出果实。

你提到了比特,其实也有过其他计算机架构方案——比如三进制逻辑(trit),在另一个平行宇宙中也许不同的范式会胜出。同样,Transformer是所有现代大语言模型的基础,是第一个足够精细到能捕捉语言的深度学习架构,但并不一定非得是它——也许另一种架构先做到了的话,那它就会成为标准。

Dwarkesh Patel:

科学史上经常出现这种情况:一个事后看来正确的新理论,在当时会产生一些推论——要么确实是错的,后来我们才明白为什么错了;要么是对的,但在当时看来完全不可思议。比如你提到过,阿里斯塔克斯在公元前三世纪就提出了日心说,但古代雅典人反驳说:如果地球绕太阳运行,我们应该能看到恒星的相对位置变化。唯一的解释是恒星距离远到看不出视差——而这恰恰就是正确答案。但有时候那个推论本身确实是错的,我们需要进入更高层次的理解。比如莱布尼茨批评牛顿的引力理论隐含了超距作用,而牛顿自己也对惯性质量和引力质量相等感到困惑。这些问题最终由爱因斯坦解决了,但牛顿的理论仍然是进步。所以对一个纯粹的AI评估系统来说,即便你能证伪一个理论,你怎么识别出它相比之前的理论仍然构成了进步?

Terrence Tao:

确实,最终正确的理论在初期往往在很多方面表现更差。托勒密的行星理论经过上千年的发展,通过越来越复杂的临时修正变得相当精确。哥白尼的理论要简洁得多,但精度不如它——直到开普勒才使日心说的精度超越了第谷的体系。科学总是一项进行中的工作。当你只得到了解答的一部分时,它看起来可能不如一个虽然错误但已经被完善到能回答所有已知问题的理论。

我们现在正经历一场认知层面的哥白尼革命:过去我们认为人类智能是宇宙的中心,现在我们发现存在着非常不同类型的智能,各有不同的优势和劣势。我们对于哪些任务需要智能、哪些不需要的判断已经发生了很大变化。试图将AI纳入我们关于科学进步、什么是难什么是易的理论框架中,我们还在苦苦挣扎,不得不面对一些以前从未真正需要回答的问题——或许哲学家们想过,但现在我们所有人都得面对它了。

00:21:35

Dwarkesh Patel:

那为什么反而花了更长时间?很大程度上似乎是因为自然选择的证据是累积性和回顾性的,而牛顿可以直接给出方程——看月球的轨道周期和距离,如果吻合,就证明了进步。卢克莱修早在公元前一世纪就有了物种适应环境的想法,但无人理会,因为他无法做出一个让人不得不关注的实验。所以我在想,AI是否会在有紧密数据反馈循环、可以快速验证的领域取得更多进展,哪怕这些领域在概念上困难得多。

Terrence Tao:

所以阐述的艺术——构建论证、创造叙事——也是科学非常重要的一部分。有数据当然有帮助,但人们需要被说服,否则他们不会愿意投入精力去学习和深入探索你的理论。这一点也很难用强化学习来解决——你怎么给"说服力"打分呢?好吧,确实有整个营销部门在试图做这件事。所以也许AI还没有被优化到善于说服,反而是件好事。

00:26:11

Dwarkesh Patel:

Terrence Tao:

00:30:30

Dwarkesh Patel:

接下来谈谈AI在数学方面的进展。你最近发过一篇帖子,指出过去几个月AI程序已经解决了1100多个Erdős问题中的约50个。但我记得大约一个月前你提到,低垂的果实已经被摘完了,出现了停滞。现在仍然是这种情况吗?

Terrence Tao:

打个比方:想象你身处一片黑暗中的山脉,到处是各种高度的悬崖——有三英尺高的、六英尺高的、十五英尺高的,还有一英里高的。你想攀登尽可能多的悬崖,但在黑暗中不知道哪些高哪些矮。我们慢慢点蜡烛、绘地图,逐渐摸清哪些是可攀的。这些AI工具就像弹跳机器,能跳到两米高——比任何人都高。有时它们跳错方向或摔了,但有时候确实能一跃到达最矮那些悬崖的顶端。我们把它们放到这片山脉里四处蹦跶,有一段令人兴奋的时期,它们找到了所有低矮的悬崖。但之后就没有新的突破了。也许下一次模型有重大升级时再试,可能会再攻克一些。

但这是一种与传统数学非常不同的风格。通常我们会逐步攀爬——做标记、识别中间阶段、规划部分路线。这些AI工具要么成功要么失败,它们在创造渐进式进展或识别应该优先解决的中间阶段方面表现很差。回到之前的讨论:我们没有一种评估渐进进展的方法,不像评估一次性成败那样清晰。

Dwarkesh Patel:

你刚才说的有两种不同的解读方式。看空的解读是:AI只能达到一定高度的墙,这不如人类能达到的高度。看多的解读是:AI有一个强大的特性——一旦达到某个水位线,它能同时解决该水位线上所有可用的问题。这是人类做不到的,我们没法复制一百万个你,给每个人一百万美元的推理算力,让你用一百年的主观时间同时研究一百万个不同的问题。但一旦AI达到Terrence Tao的水平,它们就能这么做。即使在达到中等水平时,也能做中等版本的同样事情。所以现在应该看空的原因,恰恰是将来应该格外看多的原因——甚至不需要等到超人智能,仅仅是达到人类水平的智能就已经意义非凡,因为AI的人类级智能在广度上与我们的人类级智能有着质的不同。

Terrence Tao:

我同意。AI加速广度,人类专家加速深度,两者非常互补。但我们当前的科学范式侧重于深度,因为那是人类的优势所在——人类做不了广度。我们需要重新设计科学的方式来充分利用这种广度能力。

我们应该投入更多精力去创建非常广泛的问题集合,而不仅仅是一两个极其深奥的重要问题——当然,那些深层问题仍然应该由人类继续攻克。但现在我们有了另一种做科学的方式:可以先让这些广度上中等能力的AI去探索全新的科学领域,清除所有简单的发现,然后识别出一些困难的孤岛,再由人类专家来深入攻克。

我能预见一个AI和人类高度互补的未来。最终希望能同时获得广度和深度,两全其美。但我们在广度方面还需要更多实践,这太新了,我们甚至还没有真正的范式来充分利用它。但我们会有的。届时,科学将变得面目全非。

00:36:55

Dwarkesh Patel:

Terrence Tao:

在数学中,过程确实往往比问题本身更重要,问题更像是衡量进展的替代指标。不过即使在软件领域,任务类型也各不相同。如果你只是要创建一个和其他上千个网页做同样事情的页面,没什么技能可学,这种模板化代码肯定应该交给AI来做。

但有时候你做完代码之后还需要维护它,要升级,要让它和其他东西兼容。我听说程序员们反映,即使AI能创建一个工具的初始原型,要让它和其他一切协调运作、按预期与现实世界交互,这是一个持续的过程。如果你没有从编写代码中积累的技能,后续维护能力可能会受到影响。

数学家也是如此,我们用问题来构建直觉,训练人们对什么是真的、什么可证明、什么是困难的形成良好判断。直接得到答案可能反而会抑制这个过程。

我之前提到了理论和实验的区分。在大多数科学中,理论和实验各占一半,但数学几乎是独一无二的,几乎完全是理论性的。我们非常重视构建关于事物为何成立或不成立的连贯理论,但很少做实验——比如我们有两种不同的方法来解决一个问题,哪种更有效?我们有一些直觉,但从没做过大规模研究,拿一千个问题来系统测试。

但现在我们可以做到了。我认为AI工具真正会革命性地改变数学的实验侧面——在这个侧面,你不那么关心单个问题及其求解过程,而是想大规模收集数据,了解什么方法有效、什么方法无效。就像软件公司如果要推出上千个软件产品,不会想手工打造每一个并从中各自汲取教训,而是想找到可以规模化的工作流。"大规模做数学"这个概念还处于起步阶段,但这正是AI真正能够革命性改变这门学科的地方。

00:40:52

Dwarkesh Patel:

Terrence Tao:

AI工具在第一部分——对问题尝试所有标准技术——方面越来越好了,而且在展开具体论证时,犯的错误有时比人类还少。它们仍然会犯错,但我在自己能做的小任务上测试过这些工具,有时它们能发现我的错误,有时我能发现它们的错误,现在大致打平。

但我还没见到它们能走出下一步。当论证中出现空白、所有方法都不管用时,该怎么办?它们能随机建议一些东西,但我发现追踪这些建议、尝试让它们生效,最后发现不可行,浪费的时间往往多于节省的。

但如果你做大规模扫荡,只关注社交媒体上广播的成功案例,看起来很惊人——这些几十年没被解决的问题现在纷纷攻克了。可是做系统性研究就会发现,对于任何给定问题,AI工具的成功率大概只有1%到2%。只是因为它们能靠规模取胜,你只挑赢家来看,效果就很惊艳。

类似的事情会发生在那些真正有声望的困难数学问题上。几百个问题中可能有几个会被某个AI幸运地解决——存在某个别人都错过的后门。这会获得大量关注。但当人们把这些工具用在自己最喜欢的问题上时,又会体验到那1%到2%的成功率。所以信号中会有很多噪音。越来越重要的是收集标准化数据集——现在已经有人在为AI创建标准挑战问题集。我们不能只依赖AI公司只公布成功案例而不披露失败结果,这样才能更清楚地了解我们到底处于什么位置。

Dwarkesh Patel:

我觉得值得强调的是,AI目前的进步已经很了不起了——模型能够发现某种技术适用于一个此前没有人写过相关应用的问题。

Terrence Tao:

这种进步同时令人惊叹又令人失望,这是一种非常奇怪的感觉——看到这些工具在运作,但又很快就习以为常。我记得大约20年前Google网页搜索刚出来的时候,直接碾压了所有其他搜索引擎。首页就能给出相关结果,几乎完全是你想要的,当时觉得太神奇了,但几年后你就觉得能搜到任何东西是理所当然的。2026年水平的AI放在2021年会令人震惊,但很多东西——人脸识别、自然语音、大学水平的数学题——我们现在已经习以为常了。

00:46:43

Dwarkesh Patel:

说到2026年,你在2023年做过一个预测——大概是说到2026年AI会成为数学中可信赖的合著者?

Terrence Tao:

对,如果使用得当的话,是"可信赖的合著者"。

Dwarkesh Patel:

回头看这个预测相当准确。那我们继续延伸一下:什么时候AI能让你个人的生产力提升到2倍?

Terrence Tao:

我工作的核心部分——解决数学问题中最困难的部分——变化不大,我仍然用纸笔来做。但有很多琐碎的事情,比如我现在会用AI Agent来重新格式化括号大小之类的细节,以前我得手动逐个调整,现在它可以在后台漂亮地完成。

00:49:19

Dwarkesh Patel:

你之前提到过"人工巧妙"(artificial cleverness)和"人工智能"(artificial intelligence)的区分。我想更好地理解这两个概念——什么是不仅仅是"巧妙"的"智能"?

Terrence Tao:

智能是出了名的难以定义,属于那种"你看到就知道"的东西。当我和某人合作解决一个数学问题时,我们都不知道答案,但其中一方有了某个想法,看起来有前景,于是我们形成了一个原型策略,然后去测试,发现不行,再修改,不断适应、持续改进。最终我们映射出了什么行不通、什么行得通,能看到一条前进路径,而这条路径是随着讨论不断演化的。

AI不太能做到这一点,虽然它能在一定程度上模仿。回到跳跃机器人的比喻:它们可以跳跃、失败、再跳跃、再失败。但它们做不到的是——跳到某个抓手位置后站稳,把其他人拉上来,然后从那里继续跳。缺少的就是这种累积性过程。AI更多是试错和暴力重复,虽然在某些场景下确实可以扩展并且效果惊人,但这种从局部进展中累积性地构建,目前还不太到位。

Dwarkesh Patel:

就算GPT-4.5或者什么模型解决了一个问题,它自身对数学的理解并没有因此进步。即使它在一个问题上工作了但没有解决,它的理解也没有增长。

Terrence Tao:

对,你开一个新session,它就忘了刚才做的一切,没有获得任何新技能可以用于相关问题。也许它刚才做的东西会成为下一代模型训练数据的万分之一,所以也许最终会有一些被吸收,但就是这样了。

00:53:00

Dwarkesh Patel:

我有一个大问题:如果我们持续训练AI,让它在Lean中越来越擅长解题,它会不断解决越来越令人印象深刻的问题吗?但事后我们可能会惊讶地发现,从某个证明黎曼猜想的Lean解法中几乎没有获得什么洞见。换句话说,解决黎曼猜想——即使是AI完全在Lean中完成——是否必然要求其中的构造和定义推进我们对数学的理解?还是说它可能只是一堆类似汇编代码的"天书"?

Terrence Tao:

我们不知道。有些问题基本上就是靠纯暴力解决的,四色定理就是著名的例子。我们至今没有找到概念上优雅的证明,可能永远也不会。有些问题可能只能通过拆分成大量情况再逐一暴力计算来解决。

但我们之所以重视黎曼猜想这类问题,部分原因是我们相当确信,解决它就必须创造某种新型数学,或者发现两个此前不相关的数学领域之间的新联系。我们甚至不知道解答的大致形态,但它不像是一个可以通过穷举检验来解决的问题。当然,它实际上可能是假的——有一个不太可能的场景:假设为假,通过大规模计算发现一个不在临界线上的零点。那会非常令人失望。

我确实觉得完全自主的一次性方法不是解决这些问题的正确路径,人类与这些工具协作能走得更远。我可以想象这些问题会被聪明的人类在极其强大的AI工具辅助下解决,但具体的协作动态可能与我们现在设想的完全不同——可能是一种目前还不存在的合作形式。比如也许有某种方法可以生成一百万个黎曼zeta函数的变体做数据分析,发现某种我们之前不知道的联系模式,从而将问题转化到另一个数学领域。

Dwarkesh Patel:

假设AI解决了问题,而Lean证明中潜藏着某种全新的构造——如果你意识到它的重要性,就能把它应用到各种不同的场景中。你怎么识别它?比如笛卡尔提出用坐标系来统一代数和几何,但在Lean代码中它可能就是R到R的映射,看起来并不显眼。

Terrence Tao:

未来可能会有整个数学家群体专门做这样的工作:拿到一个巨大的AI生成的Lean证明,对它做消融实验,尝试移除部分步骤,用另一个AI做强化学习来使证明更优雅,再用其他AI来评判证明是否变得更好。

所以一个巨大而混乱的Lean证明本身可能不太好理解,但其他工具可以重构它、做各种处理。我们在Erdős问题网站上就看到了这一点:AI生成了一个证明,有3000行验证代码,然后人们用其他AI来总结这个证明,也有人写出了自己的证明。这就是后处理——一旦你有了证明这个制品(artifact),我们就有很多工具来解构和解读它。这是一个非常新兴的领域。有些人担心AI会输出完全不可理解的证明,但我觉得一旦你有了证明这个制品,就能对它做大量分析。

00:59:20

Dwarkesh Patel:

Terrence Tao:

我们确实不知道具体该怎么做。数学领域很幸运,我们已经理清了逻辑和数学的规则,但这其实是相当晚近的成就。虽然从欧几里得就开始了,但直到20世纪初我们才最终列出了数学的标准公理——ZFC——以及一阶逻辑的公理,明确了什么是证明。这些我们已经成功自动化,也有了形式化语言。

但还有其他方面我们不知道如何形式化。比如你有一个猜想,你测试了几个例子都验证通过,这在多大程度上增加了你对猜想为真的信心?我们有一些数学方法来建模,比如贝叶斯概率,但这些方法往往需要设定基础假设,而且仍然有很多主观性。所以这更像是一个愿望,而非一个具体的计划。

但看到Lean这样的形式化框架如何让演绎证明的自动化和AI训练变得容易得多,如果有类似的框架用于创建策略和提出猜想,那将非常有价值。目前的瓶颈是我们必须依赖人类专家和时间的检验来验证某个东西是否合理。如果有某种半形式化框架能自动完成这个过程,而且不容易被利用——这一点非常重要。形式证明助手的关键在于没有后门或漏洞让你不经真正证明就获得认证,因为强化学习太擅长发现这些后门了。

理想的框架应该模仿科学家之间那种半形式化的交流方式——使用数据和论证,但也构建叙事。科学中有一些主观层面,我们还不知道如何以一种能让AI有效介入的方式来捕捉。这是一个未来的问题。目前有一些尝试创建自动化猜想的研究,也许有办法对这些进行基准测试,但这都是非常新的科学。

01:02:35

Dwarkesh Patel:

我有两个子问题。第一,能否给一个具体的例子,说明科学家之间那种我们还无法形式化的交流到底是什么样的?第二,"构建叙事或自然语言解释"和"形式化"这两者之间似乎存在某种悖论——一个看似定性,一个是精确的。我想理解它们之间的交集在哪里。

Terrence Tao:

好,举一个猜想的例子。高斯对素数感兴趣,他创建了最早的数学数据集之一——计算了前10万个素数,希望找到模式。他确实找到了一个模式,但不是他预期的那种。他发现了素数的统计模式:如果你数100以内、1000以内、100万以内有多少个素数,它们变得越来越稀疏,而密度的下降与自然对数成反比。于是他猜想了我们今天所知的素数定理:小于X的素数数量约为X除以ln(X)。他没有办法证明这一点,这完全是数据驱动的。

这个猜想在当时是革命性的,因为它可能是数学史上第一个统计性质的重要猜想——它不告诉你任何给定范围内确切有多少素数,只给你一个越来越精确的近似。但它也开创了解析数论这个领域。此后更多类似的猜想不断巩固了一个观念:素数实际上没有真正的模式,它们的行为像是具有特定密度的随机数子集。当然素数不是真的随机——它们几乎全是奇数,也没有随机数生成器参与。它们是"伪随机的"。但随着时间推移,把素数想象成某个上帝不断掷骰子产生的随机集合,变得越来越有成效,这个模型让我们能做各种预测。

比如数论中有一个至今未解的孪生素数猜想——应该有无穷多对相差2的素数对,比如11和13。我们无法证明它,而且有很好的理由解释为什么证不了,但基于这个统计随机模型我们绝对确信它是对的。就像无限猴子在打字机上打字一样,纯粹靠随机机会,孪生素数会一遍又一遍地出现。

随着时间推移,我们发展出了这个极其精确的素数行为概念模型,基于统计和概率——绝大部分是启发式的、非严格的,却极其准确。少数我们能够严格证明的关于素数的结论,都与这个随机模型的预测一致。这个猜想性的概念框架也是我们相信黎曼猜想为真的原因,也是我们相信基于素数的密码学在数学上是安全的原因。

如果黎曼猜想为假,那意味着素数中存在一个我们不知道的秘密模式,这将是对这个模型的严重打击。我认为我们会非常迅速地放弃任何基于素数的密码学——因为如果有一个未知的模式,很可能还有更多,而这些模式可能被用来攻破密码系统。

也许我们需要做的是开始创建大量"迷你宇宙"或模拟——让AI去解决非常基础的问题,比如算术问题,让它们自行发展出策略,然后在这些小实验室里测试。有人在研究比如能做十位数乘法的最小神经网络之类的问题。我觉得从让小型AI在简单问题上演化,我们确实可以学到很多。

01:09:49

Dwarkesh Patel:

你不仅要非常迅速地学习新领域,还要深入到足以在前沿做出贡献。从某种意义上说,你也是世界上最杰出的自学者之一。你学习数学新分支的过程是怎样的?

Terrence Tao:

我们之前谈到了深度和广度的区别。这不纯粹是人类和AI的区分——人类之间也有这种差异。我记得是以赛亚·伯林把学者分为"刺猬"和"狐狸":刺猬对一件事了解得非常深入,狐狸则对很多事都略知一二。我绝对把自己归为狐狸型。我和很多刺猬型学者合作,必要时也能当刺猬,但本质上我是狐狸。

我一直有一点"完成主义"的执念。如果我读到什么东西,觉得自己有能力理解但还没理解——比如有人用我不熟悉的数学方法证明了我想证明的结果,而我自己做不到——我就想弄清楚他们的诀窍是什么。别人能做到我觉得自己应该也能做到的事,这种感觉会一直困扰我。我不得不戒掉电脑游戏,因为一旦开始玩,我就想把所有关卡全部通关。

学习新领域的另一个重要途径是合作。我和很多人合作过,他们教会了我其他类型的数学。我会和在不同领域工作的数学家交朋友,发现他们的问题很有趣,但需要他们先教我一些基本技巧,告诉我什么是已知的、什么是未知的。

我还发现写作对学习很有帮助。年轻时我学到什么有趣的东西就想"好,我会记住这个",结果六个月后,我记得自己曾经记住过它,却没法重建当时的论证。头几次经历这种"理解过又失去"的感觉特别沮丧,于是我下定决心,一定要把学到的好东西写下来。这也是我开博客的部分原因。

Dwarkesh Patel:

Terrence Tao:

写博客往往是我不想做其他工作时会做的事。比如有什么审稿报告之类让我觉得不太想做的任务,写博客就感觉很有创造性、很有趣,是我为自己做的事情。根据主题不同,可能半小时到几个小时不等。因为是自愿做的,写的时候感觉时间飞逝,不像做行政任务那样觉得是苦差事。不过那些苦差事现在AI确实帮了不少忙。

Dwarkesh Patel:

Terrence Tao:

虽然我抱怨某些不得不做的任务,但随着在学术界越来越资深,你会承担更多责任、加入更多委员会之类的。不过我也发现,很多我因为义务而不情愿参加的活动,因为超出了我的舒适区,反而让我遇到了平时不会交流的人——比如你——学到有趣的东西,获得意想不到的交流机会。

所以我非常相信协同效应。我确实会优化自己的时间,一天中有些时间段我安排得很仔细,但我也愿意留出一些时间做不寻常的事——也许会浪费时间,但也许能学到东西。事实上,更多时候我获得了意料之外的正面体验。我非常相信偶然性的价值。

现代社会可能存在一个危险——不只是AI,而是我们变得太擅长优化一切了,可能反而过度优化了。比如COVID期间,我们大量转向远程会议,日程排得很满,见的人数量差不多,但一切都必须事先安排。我们失去的是那种随意的互动——在走廊上偶遇某人、喝咖啡时碰到谁。很多看似不是最优的偶然互动,实际上非常重要。

01:17:04

Dwarkesh Patel:

我很好奇,你预计AI什么时候能在前沿数学方面至少达到最优秀人类数学家的水平?

Terrence Tao:

从某种意义上说,AI已经在做前沿数学了——做那些超越人类能力的事情,只不过那是一个和我们习惯的不同的"前沿"。你甚至可以说计算器也在做人类无法完成的"前沿数学",但那只是数字运算,不能完全替代数学家的工作。

Dwarkesh Patel:

我理解你的观点,但换个问法:什么时候绝大部分数学进展都由AI完成?如果你听说今年某个千禧年大奖难题被解决了,你有95%的概率会认为是AI自主完成的——这样的年份肯定会到来吧?

Terrence Tao:

我确实相信人类加AI的混合模式会在数学领域占据主导地位更长时间。要实现完全自主,需要在现有基础上取得一些额外的突破,所以时间节点是不确定的。当前AI在某些方面非常出色,但在其他方面还很差。虽然你可以不断叠加更多框架来降低错误率、改善协作,但我感觉我们还缺少一些关键的"成分",无法真正令人满意地替代所有智力任务。目前AI是互补性的,不是替代性的。

当前水平的AI已经能在很多方面加速科学进步。但也有可能,通过某种方式破坏了偶然性,我们反而会抑制某些类型的进步。在当前这个时间点上,什么都有可能,局势非常不可预测。

01:21:13

Dwarkesh Patel:

对于考虑从事数学研究或刚入行的人,你有什么建议?特别是考虑到AI的进步,他们应该如何看待自己的职业?

Terrence Tao:

我们生活在一个变革的时代,一个特别不可预测的时代。我们几百年来视为理所当然的事情可能不再成立。不仅是数学,做一切事情的方式都将发生变化。说实话,在很多方面我更希望这是一个无聊平静的时代,一切和十年、二十年前差不多。但我们必须接受这一点:变化会很大。你所研究的东西,有些可能会过时或被彻底革新,但有些会被保留下来。

你要时刻留意新的机会——那些以前不可能做到的事。以数学为例,过去你必须经历多年教育、拿到博士学位,才能对前沿数学做出贡献。但现在,一个高中生完全有可能借助AI工具和Lean等形式化工具参与数学项目并做出真正的贡献。所以会有大量非传统的学习和参与机会,你需要非常适应性强的心态。

出于好奇心去追求知识仍然很有价值。传统教育在一段时间内仍然重要——用老式的方法学习数学和科学仍然是必要的。但同时你也应该对做科学的全新方式保持开放,其中一些方式目前还不存在。这是一个令人恐惧但也非常激动人心的时代。

声明:个人原创,仅供参考