栏目分类

你的位置：丝袜高跟 > 12色吧 > 好色小说图灵奖的获奖者们，记忆成为 AI 届的「奥本海默」

好色小说图灵奖的获奖者们，记忆成为 AI 届的「奥本海默」

发布日期：2025-07-06 00:12 点击次数：160

1947 年好色小说，艾伦 · 图灵在一次演讲中提到「咱们想要的是一台能够从教学中学习的机器」。

78 年后，以图灵定名，有着「筹备机界诺贝尔奖」之名的图灵奖，颁给了两位终生勤快于于处理图灵这一问题的科学家。

安德鲁 · 巴托（Andrew Barto）与理查德 · 萨顿（Richard Sutton）共获 2024 年度图灵奖，二东谈主是收支九岁的师徒，是 AlphaGo 和 ChatGPT 期间上的奠基东谈主，亦是机器学习范围的期间前驱。

图灵奖获奖者安德鲁 · 巴托（Andrew Barto）与理查德 · 萨顿（Richard Sutton）｜图片源泉：图灵奖官网

谷歌首席科学家 Jeff Dean 在授奖词里写谈「由巴托和萨顿始创的强化学习期间，胜利回复了图灵的问题。他们的责任是往时几十年 AI 朝上的要道。他们开导的器具仍是 AI 新生的中枢撑持……谷歌很侥幸援助 ACM A.M. 图灵奖。」

图灵奖 100 万好意思元奖金的惟一援助方即是谷歌。

而在获奖后，站在聚光灯下的两位科学家却剑指 AI 大公司，他们对媒体发出「获奖感言」：面前的 AI 公司在「受到贸易激发」而非专注于期间征询，在社会上「架起一座未经测试的桥梁，让东谈主们过桥来测试。」

无独到偶，图灵奖上一次颁发给东谈主工智能范围的科学家，是在 2018 届，约书亚 · 本希奥、杰弗里 · 辛顿、杨立昆三位因在深度学习范围的孝顺而获奖。

2018 年图灵奖得回者们｜图片源泉：eurekalert

其中，约书亚 · 本希奥和杰弗里 · 辛顿（亦是 2024 年诺贝尔物理学奖获奖者）两位「东谈主工智能教父」在最近两年的 AI 海潮里，也不时命令环球社会和科学界警惕大公司对东谈主工智能的蓦然。

杰弗里 · 辛顿更是胜利从谷歌辞了职，以便「各抒己见」，此次获奖的桑顿，在 2017 - 2023 年曾经任 DeepMind 的征询科学家。

当筹备机界的最高荣誉一次次被授予给 AI 中枢期间的奠基者们时，一个耐东谈主寻味的时势逐步浮现：

为何这些站上巅峰的科学家，总会在聚光灯下回身敲响 AI 的警钟？

东谈主工智能的「造桥者」

要是说艾伦 · 图灵是东谈主工智能的引路东谈主，那安德鲁 · 巴托和理查德 · 萨顿即是这条谈路上的「造桥者」。

在东谈主工智能飞奔之时，在被授予礼赞之后，他们在再行谛视我方搭建的桥梁，能否承载东谈主类安全通行？

大略谜底正藏在他们跨越半个世纪的学术生计中——唯有回溯他们奈何构建了「机器的学习」，才能交融他们为何警惕「期间的失控」。

图片源泉：卡耐基梅隆大学

1950 年，艾伦 · 图灵在其着名论文《筹备机器与智能》中，开篇就淡薄一个玄学和期间问题：

「机器能想考吗？」

由此，图灵设计出了「效法游戏」即后世广为东谈主知的「图灵测试」。

同期图灵淡薄，机器智能不错通过学习得回，而不是仅依赖预先编程。他设计了「儿童机器（Child Machine）」的见解，即通过覆按和教学，让机器像孩子同样冉冉学习。

东谈主工智能的中枢方针是构建出能感知、并选拔更好算作的智能体，而斟酌智能的圭表，即智能体有判断「某些算作比其他算作更好」的材干。

机器学习的主张就在于此，赐与机器算作后相应的反应，况且能让机器自主地在反应教学中学习。换言之，图灵构想出基于奖励和处分的机器学习设施与巴普洛夫训狗无异。

我在游戏里越玩越败越强，亦然一种「强化学习」｜图片源泉：zequance.ai

由图灵引出的机器学习之路，在三十年后，才由一双师徒建出了桥——强化学习（Reinforcement Learning，RL）。

1977 年，安德鲁 · 巴托受到情态学和神经科学的启发，启动探索一种东谈主类智能的新表面：神经元就像「享乐主义者」，东谈主类大脑内数十亿个神经元细胞，每个王人试图最大化沸腾（奖励）并最小化恶运（处分）。而且神经元并不是机械地罗致信号和传递信号，要是某个神经元的举止花式导致了正反应，它就会倾向于重叠这个花式，由此共同驱动了东谈主类的学习经由。

到了 1980 年代，巴托带上了他的博士生理查德 · 萨顿，想把这套「束缚尝试、证据反应调换畅达，找到最优的行径花式」的神经元表面应用在东谈主工智能上，强化学习就此出身。

《强化学习：导论》成为经典课本，已被援用近 80000 次，｜图片源泉：IEEE

师徒二东谈主诳骗马尔可夫方案经由的数学基础，开导并编写出了好多强化学习的核默算法，系统地构建出了强化学习的表面框架，还编写了《强化学习：导论》教科书，让数万名征询东谈主员得以进入强化学习范围，二者号称强化学习之父。

而他们征询强化学习的主张，是为了探寻出高效准确、文告最大化、算作最好的机器学习设施。

强化学习的「神之一手」

要是说机器学习是「填鸭式」学习，那强化学习即是「放养式」学习。

传统的机器学习，即是给模子被喂广博标注好的数据，建造输入和输出之间固定的映射磋议。最经典的场景即是给电脑看一堆猫和狗的相片，告诉它哪张是猫、哪张是狗，唯有投喂满盈多的图，电脑就会辩认出猫狗。

而强化学习，是在莫得明确请示的情况下，机器通过束缚试错和赏罚机制，逐步调换行径来优化终结。就像一个机器东谈主学步辇儿，不需要东谈主类一直告诉它「这步对，那步错」，它唯有尝试、颠仆、调换，最终我方就会步辇儿了，以致走出我方突出的步态。

了然于目，强化学习的旨趣更接近东谈主类的智能，就像每个小童在跌倒里学会步辇儿，在摸索中学会抓取，在咿呀里捕捉音节，学会谈话。

爆火的「回旋踢机器东谈主」背后亦然强化学习的覆按｜图片源泉：宇树科技

强化学习的「高光时代」，恰是 2016 年 AlphaGo 的「神之一手」。那时 AlphaGo 在与李世石的比赛中，第 37 手落下了一步令通盘东谈主类讶异的白棋，一步棋逆转败势，一举赢下李世石。

巨乳女优

围棋界的顶级妙手和证实注解员们，王人莫得预感到 AlphaGo 会在该位落子，因为在东谈主类棋手的教学里，这步棋下的「窘态其妙」，赛后李世石也承认，我方透澈莫得接洽过这个走法。

AlphaGo 不是靠背棋谱背出来的「神之一手」，而是在无数次自我对弈中，试错、长久蓄意、优化策略后自主探索出来，这既是强化学习的骨子。

被 AlphaGo 「神之一手」打乱节拍的李世石｜图片源泉：AP

强化学习以致反客为主影响东谈主类智能，就像 AlphaGo 露出「神之一手」后，棋手启动学习和征询 AI 下围棋的走法。科学家们也在诳骗强化学习的算法和旨趣，试图交融东谈主类大脑的学习机制，巴托和桑托的征询效果之一，即建造了一种筹备模子，来解释多巴胺在东谈主类方案和学习中的作用。

而且强化学习极度擅所长理王法复杂、景象多变的环境，并在其中找到最优解，比如围棋、自动驾驶、机器东谈主箝制、与千真万确的东谈主类谈古说今。

这些恰是当下最前沿，最热点的 AI 应用范围，尤其是在大谈话模子上，简直通盘最初的大谈话模子王人使用了 RLHF（从东谈主类反应中强化学习）的覆按设施，即让东谈主类对模子的回复进行评分，模子证据反应校阅。

但这恰是巴托的担忧地方：大公司建好桥后，用让东谈主们在桥上往还走的设施，来测试桥的安全性。

「在莫得任何保险步履的情况下，把软件胜利推给数百万用户，并不是负拖累的作念法，」巴托在获奖后的采访里说谈。

「期间的发展本该伴跟着对潜在负面影响的箝制和遁入，但我并莫得看到这些 AI 公司确切作念到这少量。」他补充谈。

AI 顶流到底在记忆什么？

AI 恫吓论玩具丧志，因为科学家最发怵亲手竖立的将来失控。

巴托和桑顿的「获奖感言」里，并无对刻下 AI 期间的苛责，而是充斥着对 AI 公司的动怒。

他们在采访里王人警告暗示，面前东谈主工智能的发展，是靠大公司争相推出功能矍铄但容易犯错的模子，他们借此筹集了广博资金，再继续过问数十亿好意思元，伸开芯片和数据的武备竞赛。

各大投行王人在再行估值 AI 行业｜图片源泉：高盛

简直如斯，证据德相识银行的征询，刻下科技巨头在 AI 范围的总投资约为 3400 亿好意思元，这一范围依然卓越希腊的年度 GDP。行业领头羊 OpenAI，公司估值达到 2600 亿好意思元，正准备伸开新一轮 400 亿好意思元的新融资。

实践上，好多 AI 群众王人和巴托和桑顿的不雅点殊途同归。

此前，微软前高管史蒂芬 · 辛诺夫斯基就曾暗示，AI 行业堕入了范围化的窘境，靠烧钱换期间朝上，这不合适期间发展史中，成本会逐步下落而不是飞腾的趋势。

就在 3 月 7 日，前谷歌 CEO 埃里克 · 施密特、Scale AI 首创东谈主 Alex Wang、AI 安全中心主任丹 · 亨德里克斯三东谈主联名发表了一篇警示性论文。

三位科技圈顶流合计，如今东谈主工智能前沿范围的发展场合，与催生曼哈顿筹划的核刀兵竞赛相似，AI 公司王人在偷偷进行我方的「曼哈顿筹划」，往时近十年里，他们对 AI 的投资每年王人在翻倍，如不再介入监管，AI 可能成为自核弹以来最不踏实的期间。

《超等智能策略》及合著者｜图片源泉：nationalsecurity.ai

因深度学习在 2019 年得回图灵奖的约书亚 · 本希奥，也在博客中发长文警告，如今 AI 产业罕有万亿好意思元的价值供成本追赶和剥夺，还有着足以严重碎裂刻下天下规律的影响力。

诸多期间出身的科技东谈主士，合计如今的 AI 行业，依然偏离了对期间的钻研，对智能的谛视，对科技蓦然的警惕，而走向了一种砸钱堆芯片的大成本逐利花式。

「建起巨大的数据中心，选取户的钱还让他们用不一定安全的软件，这不是我认可的动机。」巴托在获奖后的采访里说谈。

而由 30 个国度，75 位 AI 群众共撰的初版《先进东谈主工智能安全海外科学讲明》中写谈「经管通用东谈主工智能风险的设施频频基于这么一种假定：东谈主工智能开导者和政策制定者，不错正确评估 AGI 模子和系统的材干和潜在影响。然则，对 AGI 的里面运作、材干和社会影响，科学交融其实绝顶有限。」

约书亚 · 本希奥的警示长文｜图片源泉：Yoshua Bengio

不丢丑出，如今的「AI 恫吓论」，依然把锋芒从期间转向了大公司。

群众们在警告大公司：你们烧钱，堆料，卷参数，但你们确切了解你们开导的居品吗？这亦是巴托和桑顿借用「造桥」比方的由来，因为科技属于全东谈主类，但成本只属于大公司。

何况巴托和桑顿一直以来的征询范围：强化学习。它的旨趣更贴合东谈主类智能，且具有「黑箱」特质，尤其是在深度强化学习中，AI 行径花式会变得复杂且难以解释。

这亦然东谈主类科学家的担忧地方：助力和见证了东谈主工智能的成长，却难以解读它的意图。

而始创了深度学习和强化学习期间的图灵奖获奖者们，也并不是在记忆 AGI（通用东谈主工智能）的发展，而是记忆大公司之间的武备竞赛，在 AGI 范围形成了「智能爆炸」，一不防御制造出了 ASI（超等东谈主工智能），两者的分野不仅是期间问题，更关乎东谈主类细密的将来运道。

超越东谈主类智能的 ASI，掌抓的信息量、方案速率、自我进化的水平，将远超东谈主类的交融范围，要是分辩 ASI 进行极为严慎的设计和治理，它可能成为东谈主类历史上临了一个，亦然最无法抗衡的期间奇点。

在 AI 狂热确当下，这些科学家大略是最有资历「泼凉水」的东谈主。毕竟五十年前，在电脑照旧个短小精悍时，他们就依然开启了东谈主工智能范围的征询，他们从往时塑造了当下，也有态度去怀疑将来。

AI 相通者会迎来奥本海默式的结局吗？｜图片源泉：经济学东谈主

在 2 月《经济学东谈主》的采访里，DeepMind 和 Anthropic 的 CEO 暗示：

会因记忆我方成为下一个奥本海默好色小说，而一夜难眠。

上一篇：偷拍英文 “拳击手”多用途坦克车

下一篇：好色网互联网大厂的AI APP大战：乱成一锅粥，谁都怕错过

你的位置：丝袜高跟 > 12色吧 > 好色小说 图灵奖的获奖者们，记忆成为 AI 届的「奥本海默」

好色小说 图灵奖的获奖者们，记忆成为 AI 届的「奥本海默」

你的位置：丝袜高跟 > 12色吧 > 好色小说图灵奖的获奖者们，记忆成为 AI 届的「奥本海默」

好色小说图灵奖的获奖者们，记忆成为 AI 届的「奥本海默」