五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”

　　每(měi)经记者郑雨航每(měi)经实习记者岳(yuè)楚鹏每(měi)经编辑兰素英

　　传说中的“草莓”模型今天在没有任何预告下忽然上线了！

　　OpenAI最新发(fā)布的模型名为o1，是(shì)系列推(tuī)理模型的首批版本，现阶段推出的是o1-preview（预览版）和o1-mini（迷你版）。

　　目前，o1-preview和o1-mini已经面向ChatGPT Plus和Team订(dìng)阅用(yòng)户(hù)开放，而Enterprise和Edu用(yòng)户将于下周初获得访问权限(xiàn)。OpenAI表示，它计划向ChatGPT的所有免(miǎn)费(fèi)用户提供o1-mini访问权限，但(dàn)尚未确定(dìng)发布日期。

　　据OpenAI介绍，在解决问(wèn)题的能力(lì)方面，o1模型比以往任何(hé)模型都更接(jiē)近人类(lèi)思维，并且能(néng)够“推理”数学、编码和科学任(rèn)务。

五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”cms-style="font-L">　　为了验证新模型的能(néng)力是否正(zhèng)如(rú)OpenAI所宣(xuān)称的那么(me)强大，《每日经济新闻》记者从经典“草莓测试”、代码编写、小游戏制作(zuò)、数(shù)学(xué)与经济学，以及事实性知识这五(wǔ)大维度对o1-preview模(mó)型进行了(le)测试(shì)。

　　结果显示，o1-preview表现出了超越OpenAI之前发布的大模型的编程和数学推理(lǐ)能力。例如，o1-preview能够编写出流畅运行(xíng)的代码，并且在复杂(zá)环境中依然能够自行推理出解决方案。而且，记者在测(cè)试过程中也感觉到，o1-preview在人性化方面也有很大的提升，表(biǎo)现(xiàn)出(chū)了真人般的思考。不过，新模型也并非(fēi)毫无缺点，在事实性知识(shí)测试就“翻车”了。

　　当地时间9月12日，OpenAI发布了一款名为o1的(de)新模型，这是(shì)其计划中一系列“推理”模型中的第一个版本，也是此(cǐ)前(qián)业界盛传(chuán)已久的“草莓”模型。

　　对于OpenAI来说，o1代表着它朝着(zhe)类人AI的目标又迈出了一步。OpenAI认为，o1代表着一种全新的能力(lì)，这一能力被认为如此重要，以至于公司决定从当前的GPT-4模型重新开始，完全放弃了“GPT”品牌，从1开始命名(míng)。

　　OpenAI表(biǎo)示，将从当前的GPT-4模型重(zhòng)新(xīn)开始，“将计数(shù)器重置为(wèi) 1”，甚至放弃了迄(qì)今为止定义了(le)聊天机器人乃至(zhì)整个生成式AI热潮的“GPT”品(pǐn)牌。o1建立了一个能够(gòu)通(tōng)过一系列离散(sàn)步骤，谨慎而合乎逻辑地解决问(wèn)题(tí)的系统，每(měi)个(gè)步骤都建立在上一个步骤的(de)基(jī)础上，类似于人类的推理方(fāng)式。

　　OpenAI首席科学家Jakub Pachocki表示，之前的模型(xíng)在收到用户(hù)问询时会立即开始回(huí)答。“而这个模型（指的(de)是o1）会慢慢来。它思考问(wèn)题，并尝试分解问题，寻找角度(dù)，努力提供最佳答案。”这就像大多(duō)数人在幼年时被父母所要求(qiú)的那样，先(xiān)想(xiǎng)好再(zài)说话。

　　OpenAI表示，o1在竞赛编程问题（Codeforces）中排名第89个(gè)百分点，在美国数学奥林匹克(kè)竞赛（AIME）预选赛中位列美国前500名学生之列，并且在物理、生物和化学(xué)问题的基准测(cè)试（GPQA）中超过(guò)了人类博士水平的准确度。

　　在OpenAI发布的研究和博客(kè)文章中，o1看起来“推理”能力(lì)十(shí)分强大，不仅可解决高级数学和编码问题，还能解密复杂(zá)的密码，以及解答来自专家(jiā)学者们关于(yú)遗传学、经(jīng)济学和量子物理学的复杂问题。大量图表显示，在(zài)内部评(píng)估中，o1在编码、数学和各个科(kē)学领(lǐng)域的问(wèn)题上(shàng)已经超越了公(gōng)司最先进的语言模型GPT-4o，甚至可能超越了人类。

　　为了深入(rù)了解o1模型的强(qiáng)大能力，《每(měi)日(rì)经济新闻》记者从经典草莓测试、代码编写、小游戏制作、数学与经济(jì)学，以及事实性知识这五大维度对(duì)o1-preview模型进行了测试。

　　1）草莓测试

　　首先，记者用之前几乎所有大模型(xíng)都“翻车”的一(yī)道(dào)简(jiǎn)单(dān)题目进行了(le)测试，即“单词strawberry里面到底有几个r”。从生成(chéng)的结果看，o1-preview还是(shì)带来了一(yī)点小(xiǎo)惊喜的。

　　2）代码编写

　　记者首先向o1-preview询问了一个在(zài)线编(biān)程平(píng)台leetcode里最有名的简单算法题：Two Sum（两数之和）问(wèn)题。o1给出了很(hěn)详尽(jǐn)的推理过(guò)程和答案(àn)。

　　随后记者故意要求优化答案，o1在思考9秒后意识到自己提供的已经是最优解法了，并就此进(jìn)行了说明(míng)，另外(wài)还很(hěn)“贴(tiē)心”地提(tí)供了一个次优解。而在之前记者(zhě)对其他模型的测试中，这些(xiē)模型(xíng)只会道歉然后将答案更(gèng)改为次优解。

　　3）小游戏制作

　　在o1模型的演(yǎn)示中，OpenAI演示过“用一句话编写小游戏”的功能。测试过程中，记者(zhě)让o1-preview帮忙(máng)介绍好用的代码工具，并协助编写一个乒乓小游戏(xì)。

　　o1-preview仅用了19秒就给出了一份能(néng)够流畅运行的(de)代码，并且附上了学习指南和鼓励的话语，非常地人性化。

　　为避免(miǎn)o1-preview作弊，使用(yòng)的(de)是记忆能力，而不是使(shǐ)用推理(lǐ)能力进行回答，记者还请求o1-preview更换了(le)一个代码运行环境：jupyter note。这一运行环境是针对数据(jù)分(fēn)析进行特化(huà)的python环境，开发人员基本不会使用此环境开发小游戏。

　　经过思考后，o1依(yī)然给出了一个可以运行的代码。不过，相较于之前的代码，这份答案有着不少的bug，但这也从侧面说明(míng)这确实是思考出(chū)来的答案(àn)，而不是(shì)训(xùn)练过程中加入的(de)标准答案。

　　为进一步验(yàn)证o1-preview的创(chuàng)新(xīn)推理能力，记者随后又要求模型在这个小游戏的基础上开发一个更复杂有趣的小游戏。

　　这下，o1的表现真(zhēn)的有点惊喜。根据乒乓游戏的碰撞(zhuàng)机(jī)制，该模型自行迭代出了一个向上登高(gāo)的跳跃游戏。一般其他大模型需要用户把需求描述清楚才会输出一(yī)个比较好的答案，但记者在(zài)这次(cì)测(cè)试中(zhōng)没有进行任何的额外提示，o1就(jiù)输出了一个能流畅运行，并且在(zài)记者眼中看来也(yě)足够有趣的小游戏。

　　4）科(kē)学类测(cè)试

　　在科学类测试方面，记者重点测(cè)试了o1-preview在数学(xué)和经济学上的表现。

　　首先，记(jì)者抛出的是一(yī)个(gè)数学推理问题，向o1-preview询问解决欧拉方程有限时间(jiān)爆破的可能方法(fǎ)（这是著(zhù)名华裔数学家、菲尔兹奖(jiǎng)得(dé)主(zhǔ)陶哲轩教(jiào)授本周才发表的讨论文章）。

　　o1虽然(rán)没有给(gěi)出(chū)明确解法，但却提供了一个(gè)解题思路，这一(yī)思路和陶(táo)哲轩教授文章部分吻合（虽然很少）。

　　经济学方向上，记者向(xiàng)o1-preview询问了一个复杂(zá)的经济系(xì)统问题。从给出的反馈看，基本没有什么太大的问(wèn)题，整体逻辑清晰，思考维度也是多样化的，给出的数学公式虽然有一(yī)点小差错但是无伤大体。

　　5）事实性知识与语(yǔ)言理解

　　在这一环节(jié)，记者向o1-preview询问了明朝(cháo)第一任皇帝的趣事，但o1就将趣事理解成了历史上实际发生(shēng)过(guò)的事情，将(jiāng)朱元璋的历史故事整个叙述(shù)了出来。

　　同时，记(jì)者也将这(zhè)一问题丢给了GPT-4o模型，作为对比，GPT-4o能很好地理解记(jì)者的问题，并(bìng)讲了(le)两(liǎng)个流传很(hěn)广的民间小故事。

　　总体来看，OpenAI宣称o1模型能接近(jìn)人类(lèi)水平在某些方面上看起(qǐ)来并不是虚话。

　　最(zuì)让记者惊喜的是，OpenAI将模型思考的过程用文字展示给了用户，文字思考过(guò)程(chéng)中，大模型大量(liàng)使用(yòng)了“我正(zhèng)在”“我(wǒ)认为 ”“我打(dǎ)算”等话语，感(gǎn)觉更加拟人化，就像一个真人在用户面前阐述自己(jǐ)的思考逻辑一般。

　　但这也并不意味着o1模型就是(shì)完美的。OpenAI也承认，在设计、写作、编辑文字等方面上，o1远不(bù)如GPT-4o。o1也没(méi)有(yǒu)浏览网页或处理文(wén)件和图像的(de)能力。

　　而最让记者(zhě)感到头疼的是，即使(shǐ)是一个(gè)很简单的请求，比如说将输出结果转换为中文(wén)，o1都会消耗(hào)十几秒钟(zhōng)的时间(jiān)来思考(kǎo)，而GPT4o就会很快(kuài)处理好这一请求。

　　就算在OpenAI的优势(shì)领域中，o1模型也会突然出现性能下降，模型输出懒惰的情况。已离职的 OpenAI创始人Karpathy就五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”吐槽道：“它一直拒绝为我解决黎曼假说。模型懒惰仍然是一个主要(yào)问题。”

　　OpenAI表示，公司(sī)会在之后(hòu)的(de)更新中解决这些(xiē)问题(tí)，毕竟(jìng)现在(zài)这只是推理模型的早期预览。

责(zé)任编辑：刘明亮

未经允许不得转载：骏诺车品JNCP官方网站五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”