五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊 艳”,事实性知识却“翻了车”
每经记者 郑雨航 每经实习(xí)记者 岳楚鹏 每经编(biān)辑 兰素英
传(chuán)说中的“草莓”模型今天在没(méi)有任何(hé)预告下忽然(rán)上线了!
OpenAI最新发(fā)布的模型名为o1,是系列推理 模型的首批版(bǎn)本,现阶段推出的是o1-preview(预览版)和(hé)o1-mini(迷你版)。
目前,o1-preview和o1-mini已经面向(xiàng)ChatGPT Plus和Team订阅用户开放,而Enterprise和Edu用户将于下周初获得(dé)访问权限。OpenAI表示,它计划向ChatGPT的所有免费用 户提供(gōng)o1-mini访问权限,但(dàn)尚未(wèi)确定发布日期。
据OpenAI介绍,在解决问题的能力方面,o1模型比以(yǐ)往任何(hé)模型都更接近人(rén)类思维,并且能够“推理”数(shù)学、编码和科学任务。
为了验证新模型(xíng)的能力是否(fǒu)正如OpenAI所宣称的那么强大,《每日经济新闻》记者(zhě)从经典“草莓测试”、代码编(biān)写、小(xiǎo)游戏制作、数学与经济学,以及事实性知识(shí)这五大维度对o1-preview模型进五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”(jìn)行了(le)测试。
结果显(xiǎn)示,o1-preview表现出了超越OpenAI之(zhī)前发(fā)布的大模型的编程和数学推理(lǐ)能力。例如,o1-preview能(néng)够编写出(chū)流畅运行的代码,并且(qiě)在复杂环境中依然能够自行推理出解决方(fāng)案(àn)。而且,记者在测试过程(chéng)中也感觉(jué)到,o1-preview在人性化方面也(yě)有很(hěn)大的提(tí)升,表现出了真(zhēn)人般(bān)的(de)思考。不过(guò),新模型也并非毫无缺点,在(zài)事实性知识测试(shì)就“翻车(chē)”了。
当(dāng)地时间9五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”月12日,OpenAI发布了一款名(míng)为o1的新模型,这是其计划中一系列“推理(lǐ)”模型中的第一个版本(běn),也 是此前业(yè)界盛(shèng)传已久的“草莓(méi)”模型(xíng)。
对(duì)于OpenAI来说,o1代表着它朝着类人AI的目标又(yòu)迈出了(le)一步。OpenAI认为,o1代表着一种全新(xīn)的能力,这一能力被认为(wèi)如(rú)此重要,以(yǐ)至于公司决定从当前的GPT-4模型重新开始,完全放(fàng)弃了“GPT”品牌,从1开始命名。
OpenAI表示,将从当(dāng)前的GPT-4模型重新开 始,“将计数器重置为 1”,甚(shèn)至放弃了迄今为止定义了聊天机器人乃至整个生成式AI热潮的“GPT”品牌。o1建立了一个能(néng)够通过一系列离(lí)散步骤,谨慎而合(hé)乎逻辑地解决问题的系统,每个步骤都(dōu)建(jiàn)立在上一个步骤的(de)基础上,类似于人类的推理方式。
OpenAI首席科学(xué)家Jakub Pachocki表示,之前的模(mó)型在收到用户问询时会立即开始回(huí)答(dá)。“而这个模型(指的是o1)会慢慢(màn)来(lái)。它思考问题,并尝(cháng)试分解问题(tí),寻找角度,努力提供最佳答案。”这就像大多(duō)数人在幼年时被父母所要求的那样(yàng),先想(xiǎng)好(hǎo)再说话。
OpenAI表示,o1在竞赛(sài)编(biān)程问题(Codeforces)中排(pái)名第89个(gè)百分(fēn)点,在美国数学奥(ào)林匹克竞赛(AIME)预选赛中位列美国前500名学生之列(liè),并且在物理、生物和化学问题(tí)的基准测试(GPQA)中超(chāo)过了人类博士水平(píng)的准确度。
在OpenAI发布的(de)研究和博客文章中,o1看起来“推理”能力(lì)十分强大,不仅可解决高(gāo)级数学和编码问题,还能解密复杂的密码,以及解答来自专家学者们关于遗(yí)传学、经(jīng)济学和量子物理学(xué)的复杂问题。大量图表显(xiǎn)示,在内部评估中,o1在编码、数学和各个科学领域(yù)的问题上已经超越(yuè)了(le)公司最先进的语(yǔ)言(yán)模型GPT-4o,甚(shèn)至可能超越了人(rén)类。
为了深入了(le)解o1模型的强大能力,《每日经济新闻》记者从经典草莓测试、代码(mǎ)编(biān)写、小游(yóu)戏制作、数学与经济学,以及事实性知(zhī)识这(zhè)五大(dà)维度对o1-preview模(mó)型进行了测试。
1)草(cǎo)莓(méi)测试
首先,记者用之前几乎所有大模型都“翻车”的一道简单题目进行了测试(shì),即(jí)“单词strawberry里面到底有(yǒu)几个r”。从生成(chéng)的结果(guǒ)看,o1-preview还是带来了一点小惊(jīng)喜的(de)。
2)代码编写
记者首先向o1-preview询问了一个在(zài)线编程平台leetcode里最(zuì)有名的简单算法题:Two Sum(两数之和)问题。o1给出了很详尽的推理过程和答(dá)案。
随后记者故意要求优化答案,o1在思考9秒后意识到自(zì)己提供的已经是最(zuì)优解法了,并就此进行了说明,另(lìng)外还很“贴心”地提供了一个次优解。而在之前记者对其他(tā)模型的测试中(zhōng),这些模型只会道歉然后将答案更改为次优(yōu)解。
3)小游戏制(zhì)作
在o1模型的演示中,OpenAI演示过“用一句话编写小游戏”的功能(néng)。测试过程中,记(jì)者让o1-preview帮(bāng)忙介绍好用的代码(mǎ)工(gōng)具,并协(xié)助编写一个乒乓小游戏。
o1-preview仅用了(le)19秒(miǎo)就给出了一份能够流(liú)畅(chàng)运(yùn)行(xíng)的代码(mǎ),并(bìng)且附上(shàng)了学习指南和鼓励的话语,非 常(cháng)地人(rén)性化。
为避免(miǎn)o1-preview作弊(bì),使(shǐ)用的是记忆(yì)能力,而不是使用推理能力进行回答,记者还请求o1-preview更换(huàn)了一个代码运行环境(jìng):jupyter note。这一运行环(huán)境是针对数据分析进行特(tè)化(huà)的python环境,开发人员基本不会使用此环(huán)境开发小游(yóu)戏。
经过(guò)思考后,o1依然给出了一个可(kě)以运行的代码。不(bù)过,相较于之前的代(dài)码,这份答案有着不少的bug,但(dàn)这也从侧面说(shuō)明这确实是思考出来的答(dá)案,而不是训练过程中加入的标准答案。
为(wèi)进一步验证o1-preview的创新推理能力,记者随后又要(yào)求模型在这个小游戏的基(jī)础上开(kāi)发一个更复(fù)杂有趣的小游戏。
这下(xià),o1的表现真的有点惊喜。根据乒(pīng)乓游戏的碰撞机制,该模型自行(xíng)迭代出了一个向上登高的跳(tiào)跃游戏。一般其他大模型需要用户把需求描述清楚才(cái)会输出一个比较好的答案,但记者(zhě)在这次测试中没有进(jìn)行任何的额(é)外提示,o1就输出(chū)了一个能流(liú)畅运行,并且在记者(zhě)眼中 看来也(yě)足够有趣的小游戏。
4)科(kē)学类测(cè)试
在科学类测试方(fāng)面(miàn),记者重点测(cè)试了o1-preview在数学和经济学上的表现。
首先(xiān),记者抛出的是一个数学推理问题,向(xiàng)o1-preview询问解决欧(ōu)拉方 程有(yǒu)限时(shí)间(jiān)爆(bào)破的可能方法(这 是(shì)著名华(huá)裔数学家、菲尔兹奖得主陶(táo)哲轩教授本周才发表的讨论文章)。
o1虽然没有(yǒu)给出明确(què)解法,但却提(tí)供了一个解题(tí)思路(lù),这一思路(lù)和陶哲轩教授文章部(bù)分吻合(虽然很少)。
经济学方向上,记者向o1-preview询(xún)问了一个复杂的经济系(xì)统问题。从给出的反(fǎn)馈看,基本没有什么太大(dà)的问题,整体逻辑清晰(xī),思考(kǎo)维度也是多样化的(de),给出的数学公式虽然有一点小差错但是无伤大(dà)体。
5)事实(shí)性知识与语言理解
在这一环节,记(jì)者向o1-preview询问了明(míng)朝第一任(rèn)皇帝的趣事,但o1就将趣事理(lǐ)解成了历(lì)史上实际(jì)发生过的事情,将朱(zhū)元(yuán)璋的历史故事整个叙述了出来。
同时,记者也(yě)将这一问题(tí)丢给了GPT-4o模(mó)型,作为对比,GPT-4o能很好地理解记(jì)者的问(wèn)题(tí),并讲了两个流传很广的民间小故事。
总体来看(kàn),OpenAI宣称o1模(mó)型(xíng)能接近人(rén)类水平在某些方(fāng)面(miàn)上看起来并不(bù)是(shì)虚话。
最让(ràng)记者惊喜的是,OpenAI将模(mó)型思考的过程用文字(zì)展示(shì)给了用户,文字(zì)思考过程(chéng)中,大模型大量使(shǐ)用了(le)“我正在”“我(wǒ)认为(wèi)”“我打(dǎ)算”等话语(yǔ),感(gǎn)觉更加拟人(rén)化,就像一个(gè)真人(rén)在(zài)用户面前阐述自己的(de)思考逻辑一般。
但这(zhè)也并不意味着o1模型就是完美的。OpenAI也承认,在设计、写作(zuò)、编辑文字等方面(miàn)上(shàng),o1远不如(rú)GPT-4o。o1也没有浏览网页或(huò)处理(lǐ)文件和图(tú)像的能力(lì)。
而最让记者感到头(tóu)疼的(de)是(shì),即使是一个很简单的请求,比如说将(jiāng)输出结果转(zhuǎn)换为中(zhōng)文,o1都会消耗 十几秒钟的时(shí)间(jiān)来思考,而GPT4o就会(huì)很快处(chù)理好这一请求。
就(jiù)算在OpenAI的优(yōu)势领域中,o1模型也会(huì)突然出现性能下降,模型输出(chū)懒惰的情(qíng)况。已(yǐ)离职(zhí)的OpenAI创(chuàng)始人(rén)Karpathy就吐槽道(dào):“它一直拒绝为我(wǒ)解决(jué)黎(lí)曼假说。模型懒惰仍然是一个(gè)主要问题(tí)。”
OpenAI表示,公(gōng)司会在之后的更新(xīn)中解决这些问题,毕竟现在这只是推理模型的(de)早期预览。
责任编 辑(jí):刘明亮
未经允许不得转载:骏诺车品JNCP官方网站 五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了