五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”

　　每经记者郑雨航每经实习(xí)记者岳楚鹏每经编(biān)辑兰素英

　　传(chuán)说中的“草莓”模型今天在没(méi)有任何(hé)预告下忽然(rán)上线了！

　　OpenAI最新发(fā)布的模型名为o1，是系列推理模型的首批版(bǎn)本，现阶段推出的是o1-preview（预览版）和(hé)o1-mini（迷你版）。

　　目前，o1-preview和o1-mini已经面向(xiàng)ChatGPT Plus和Team订阅用户开放，而Enterprise和Edu用户将于下周初获得(dé)访问权限。OpenAI表示，它计划向ChatGPT的所有免费用户提供(gōng)o1-mini访问权限，但(dàn)尚未(wèi)确定发布日期。

　　据OpenAI介绍，在解决问题的能力方面，o1模型比以(yǐ)往任何(hé)模型都更接近人(rén)类思维，并且能够“推理”数(shù)学、编码和科学任务。

　　为了验证新模型(xíng)的能力是否(fǒu)正如OpenAI所宣称的那么强大，《每日经济新闻》记者(zhě)从经典“草莓测试”、代码编(biān)写、小(xiǎo)游戏制作、数学与经济学，以及事实性知识(shí)这五大维度对o1-preview模型进五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”(jìn)行了(le)测试。

　　结果显(xiǎn)示，o1-preview表现出了超越OpenAI之(zhī)前发(fā)布的大模型的编程和数学推理(lǐ)能力。例如，o1-preview能(néng)够编写出(chū)流畅运行的代码，并且(qiě)在复杂环境中依然能够自行推理出解决方(fāng)案(àn)。而且，记者在测试过程(chéng)中也感觉(jué)到，o1-preview在人性化方面也(yě)有很(hěn)大的提(tí)升，表现出了真(zhēn)人般(bān)的(de)思考。不过(guò)，新模型也并非毫无缺点，在(zài)事实性知识测试(shì)就“翻车(chē)”了。

　　当(dāng)地时间9五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”月12日，OpenAI发布了一款名(míng)为o1的新模型，这是其计划中一系列“推理(lǐ)”模型中的第一个版本(běn)，也是此前业(yè)界盛(shèng)传已久的“草莓(méi)”模型(xíng)。

　　对(duì)于OpenAI来说，o1代表着它朝着类人AI的目标又(yòu)迈出了(le)一步。OpenAI认为，o1代表着一种全新(xīn)的能力，这一能力被认为(wèi)如(rú)此重要，以(yǐ)至于公司决定从当前的GPT-4模型重新开始，完全放(fàng)弃了“GPT”品牌，从1开始命名。

　　OpenAI表示，将从当(dāng)前的GPT-4模型重新开始，“将计数器重置为 1”，甚(shèn)至放弃了迄今为止定义了聊天机器人乃至整个生成式AI热潮的“GPT”品牌。o1建立了一个能(néng)够通过一系列离(lí)散步骤，谨慎而合(hé)乎逻辑地解决问题的系统，每个步骤都(dōu)建(jiàn)立在上一个步骤的(de)基础上，类似于人类的推理方式。

　　OpenAI首席科学(xué)家Jakub Pachocki表示，之前的模(mó)型在收到用户问询时会立即开始回(huí)答(dá)。“而这个模型（指的是o1）会慢慢(màn)来(lái)。它思考问题，并尝(cháng)试分解问题(tí)，寻找角度，努力提供最佳答案。”这就像大多(duō)数人在幼年时被父母所要求的那样(yàng)，先想(xiǎng)好(hǎo)再说话。

　　OpenAI表示，o1在竞赛(sài)编(biān)程问题（Codeforces）中排(pái)名第89个(gè)百分(fēn)点，在美国数学奥(ào)林匹克竞赛（AIME）预选赛中位列美国前500名学生之列(liè)，并且在物理、生物和化学问题(tí)的基准测试（GPQA）中超(chāo)过了人类博士水平(píng)的准确度。

　　在OpenAI发布的(de)研究和博客文章中，o1看起来“推理”能力(lì)十分强大，不仅可解决高(gāo)级数学和编码问题，还能解密复杂的密码，以及解答来自专家学者们关于遗(yí)传学、经(jīng)济学和量子物理学(xué)的复杂问题。大量图表显(xiǎn)示，在内部评估中，o1在编码、数学和各个科学领域(yù)的问题上已经超越(yuè)了(le)公司最先进的语(yǔ)言(yán)模型GPT-4o，甚(shèn)至可能超越了人(rén)类。

　　为了深入了(le)解o1模型的强大能力，《每日经济新闻》记者从经典草莓测试、代码(mǎ)编(biān)写、小游(yóu)戏制作、数学与经济学，以及事实性知(zhī)识这(zhè)五大(dà)维度对o1-preview模(mó)型进行了测试。

　　1）草(cǎo)莓(méi)测试

　　首先，记者用之前几乎所有大模型都“翻车”的一道简单题目进行了测试(shì)，即(jí)“单词strawberry里面到底有(yǒu)几个r”。从生成(chéng)的结果(guǒ)看，o1-preview还是带来了一点小惊(jīng)喜的(de)。

　　2）代码编写

　　记者首先向o1-preview询问了一个在(zài)线编程平台leetcode里最(zuì)有名的简单算法题：Two Sum（两数之和）问题。o1给出了很详尽的推理过程和答(dá)案。

　　随后记者故意要求优化答案，o1在思考9秒后意识到自(zì)己提供的已经是最(zuì)优解法了，并就此进行了说明，另(lìng)外还很“贴心”地提供了一个次优解。而在之前记者对其他(tā)模型的测试中(zhōng)，这些模型只会道歉然后将答案更改为次优(yōu)解。

　　3）小游戏制(zhì)作

　　在o1模型的演示中，OpenAI演示过“用一句话编写小游戏”的功能(néng)。测试过程中，记(jì)者让o1-preview帮(bāng)忙介绍好用的代码(mǎ)工(gōng)具，并协(xié)助编写一个乒乓小游戏。

　　o1-preview仅用了(le)19秒(miǎo)就给出了一份能够流(liú)畅(chàng)运(yùn)行(xíng)的代码(mǎ)，并(bìng)且附上(shàng)了学习指南和鼓励的话语，非常(cháng)地人(rén)性化。

　　为避免(miǎn)o1-preview作弊(bì)，使(shǐ)用的是记忆(yì)能力，而不是使用推理能力进行回答，记者还请求o1-preview更换(huàn)了一个代码运行环境(jìng)：jupyter note。这一运行环(huán)境是针对数据分析进行特(tè)化(huà)的python环境，开发人员基本不会使用此环(huán)境开发小游(yóu)戏。

　　经过(guò)思考后，o1依然给出了一个可(kě)以运行的代码。不(bù)过，相较于之前的代(dài)码，这份答案有着不少的bug，但(dàn)这也从侧面说(shuō)明这确实是思考出来的答(dá)案，而不是训练过程中加入的标准答案。

　　为(wèi)进一步验证o1-preview的创新推理能力，记者随后又要(yào)求模型在这个小游戏的基(jī)础上开(kāi)发一个更复(fù)杂有趣的小游戏。

　　这下(xià)，o1的表现真的有点惊喜。根据乒(pīng)乓游戏的碰撞机制，该模型自行(xíng)迭代出了一个向上登高的跳(tiào)跃游戏。一般其他大模型需要用户把需求描述清楚才(cái)会输出一个比较好的答案，但记者(zhě)在这次测试中没有进(jìn)行任何的额(é)外提示，o1就输出(chū)了一个能流(liú)畅运行，并且在记者(zhě)眼中看来也(yě)足够有趣的小游戏。

　　4）科(kē)学类测(cè)试

　　在科学类测试方(fāng)面(miàn)，记者重点测(cè)试了o1-preview在数学和经济学上的表现。

　　首先(xiān)，记者抛出的是一个数学推理问题，向(xiàng)o1-preview询问解决欧(ōu)拉方程有(yǒu)限时(shí)间(jiān)爆(bào)破的可能方法（这是(shì)著名华(huá)裔数学家、菲尔兹奖得主陶(táo)哲轩教授本周才发表的讨论文章）。

　　o1虽然没有(yǒu)给出明确(què)解法，但却提(tí)供了一个解题(tí)思路(lù)，这一思路(lù)和陶哲轩教授文章部(bù)分吻合（虽然很少）。

　　经济学方向上，记者向o1-preview询(xún)问了一个复杂的经济系(xì)统问题。从给出的反(fǎn)馈看，基本没有什么太大(dà)的问题，整体逻辑清晰(xī)，思考(kǎo)维度也是多样化的(de)，给出的数学公式虽然有一点小差错但是无伤大(dà)体。

　　5）事实(shí)性知识与语言理解

　　在这一环节，记(jì)者向o1-preview询问了明(míng)朝第一任(rèn)皇帝的趣事，但o1就将趣事理(lǐ)解成了历(lì)史上实际(jì)发生过的事情，将朱(zhū)元(yuán)璋的历史故事整个叙述了出来。

　　同时，记者也(yě)将这一问题(tí)丢给了GPT-4o模(mó)型，作为对比，GPT-4o能很好地理解记(jì)者的问(wèn)题(tí)，并讲了两个流传很广的民间小故事。

　　总体来看(kàn)，OpenAI宣称o1模(mó)型(xíng)能接近人(rén)类水平在某些方(fāng)面(miàn)上看起来并不(bù)是(shì)虚话。

　　最让(ràng)记者惊喜的是，OpenAI将模(mó)型思考的过程用文字(zì)展示(shì)给了用户，文字(zì)思考过程(chéng)中，大模型大量使(shǐ)用了(le)“我正在”“我(wǒ)认为(wèi)”“我打(dǎ)算”等话语(yǔ)，感(gǎn)觉更加拟人(rén)化，就像一个(gè)真人(rén)在(zài)用户面前阐述自己的(de)思考逻辑一般。

　　但这(zhè)也并不意味着o1模型就是完美的。OpenAI也承认，在设计、写作(zuò)、编辑文字等方面(miàn)上(shàng)，o1远不如(rú)GPT-4o。o1也没有浏览网页或(huò)处理(lǐ)文件和图(tú)像的能力(lì)。

　　而最让记者感到头(tóu)疼的(de)是(shì)，即使是一个很简单的请求，比如说将(jiāng)输出结果转(zhuǎn)换为中(zhōng)文，o1都会消耗十几秒钟的时(shí)间(jiān)来思考，而GPT4o就会(huì)很快处(chù)理好这一请求。

　　就(jiù)算在OpenAI的优(yōu)势领域中，o1模型也会(huì)突然出现性能下降，模型输出(chū)懒惰的情(qíng)况。已(yǐ)离职(zhí)的OpenAI创(chuàng)始人(rén)Karpathy就吐槽道(dào)：“它一直拒绝为我(wǒ)解决(jué)黎(lí)曼假说。模型懒惰仍然是一个(gè)主要问题(tí)。”

　　OpenAI表示，公(gōng)司会在之后的更新(xīn)中解决这些问题，毕竟现在这只是推理模型的(de)早期预览。

责任编辑(jí)：刘明亮

未经允许不得转载：骏诺车品JNCP官方网站五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”