文章编号:38804时间:2024-12-21人气:
随着为期12天的发布的落幕,全球人工智能领域焦点聚焦于OpenAI的最新模型——o3及其mini版本。
正如外界所预期,这两款模型在推理能力上达到了新的高度,为人工智能的未来发展揭开了新的篇章。
作为o1系列模型的继任者,o3及其mini版本最大的特点在于让模型在回答问题前进行更多的思考(推理),从而显著提高回答的准确率。
在命名上,OpenAI选择了跳过o2,直接命名为o3,据TheInformation报道,这是为了避免与英国电信公司O2的版权问题。
SamAltman在今天的直播中证实了这一点。
事实上,从昨天开始,OpenAI就已经为此预热。
而现在,o3和o3-mini已经来临。
遗憾的是,这两款模型并不会直接公开发布,而是先进行安全测试。
在ARCPrizeFundation总裁GregKamradt的介绍下,我们了解到o3已经在ARC-AGI基准上达到了优良水平,成为首个突破ARC-AGI基准的AI模型。
这个基准测试旨在评估人工智能的通用智能水平。
据报告,o3系列模型在ARC-AGI基准上的最低性能可达到75.7%,如果使用更多的计算资源,这一数字甚至可以提升到87.5%。
这标志着人工智能在适应新任务方面的能力取得了重大飞跃。
OpenAI的新o3模型展现了人工智能适应以前从未遇到过的任务的能力,可以说在ARC-AGI领域接近人类水平的表现。
报告也指出,ARC-AGI并不是对AGI的严峻考验,通过ARC-AGI并不等于实现AGI。
除了解决ARC-AGI这样的「IQ」问题,o3在SWE-benchVerified基准上的准确率也比之前的o1系列高出20%以上。
在CompetitionCode中,o3获得了难以置信的2727Elo得分,而o1仅为1891。
o3在竞赛数学和GPQADiamond基准上的准确率也远超之前的o1表现。
o3在这两项基准测试上都达到了最佳表现。
而o3-mini作为一个更经济高效的版本,在推理速度、推理成本和模型性能之间取得了优秀的平衡。
它支持三种不同的推理时间选项,与o1相比,o3-mini在Codeforces上的性能具有显著的成本效益,这使它成为一个非常适合编程的模型。
HongyuRen在现场演示了几个示例,展示了o3-mini的出色性能。
OpenAI正在进行外部安全测试,想要参与测试的研究人员可以填写在线表格申请测试o3和o3-mini。
选定的研究人员将被授予访问权限,以探索这些模型的能力并为安全评估做出贡献。
申请地址已公开,并将于2025年1月10日截止。
MarkChen也简单介绍了OpenAI的一种新的安全评估方法:审议式对齐。
这是一种直接教授模型安全规范的新范式,并可训练模型在回答之前明确回忆规范并准确地执行推理。
他们使用了这种方法来对齐OpenAI的o系列模型,并实现了对OpenAI安全政策的高度精确遵守。
内容声明:
1、本站收录的内容来源于大数据收集,版权归原网站所有!
2、本站收录的内容若侵害到您的利益,请联系我们进行删除处理!
3、本站不接受违法信息,如您发现违法内容,请联系我们进行举报处理!
4、本文地址:https://www.nazei.cn/hlwz/040c8c39fff950b69d82.html,复制请保留版权链接!
中国企业全球招募高科技人才:争夺技术优势与全球竞争格局的调整近日,外媒报道称,中国企业正在积极招募西方高科技领域的工程师,提供高达当前薪资三倍的报酬,以争夺技术优势。这一行动不仅引发了德国情报部门的调查,也促使美国和欧洲重新审视是否需要加强对这种招聘行为的监管。此事件反映了中国在高科技领域的野心,以及其正在全球范围内抢夺人才的趋势。特...
互联资讯 2024-12-21 09:57:45
小米RedmiK80系列手机重磅预热:超300万跑分与澎湃HyperOS2系统定制化的完美结合IT之家报道,随着科技的飞速发展,智能手机行业日新月异,各大品牌纷纷推出新品以应对激烈的市场竞争。在这其中,小米Redmi系列一直以其出色的性能和高性价比深受消费者喜爱。就在最近,小米Redmi于昨晚举行了一场盛大的直播活动,重点推出了全新的...
互联资讯 2024-11-08 10:59:42
IT之家讯:铠侠创新存储技术获日本国家机构采纳,新型CXL存储器开发计划启动IT之家报道,铠侠日本近日宣布其创新型存储制造技术开发提案已获得日本新能源・产业技术综合开发机构(NEDO)加强后5G信息和通信系统基础设施研究开发项目的认可,并被纳入先进半导体制造技术开发计划中。这一重要里程碑标志着铠侠在全球存储技术领域的领先地位正在逐步稳...
互联资讯 2024-11-07 17:26:47
就业前景好的专业排名及相关解析随着社会的发展和科技的进步,工科类专业一直受到广泛关注,就业前景广阔。以下是就业前景好的专业排名及相关解析:一、专业排名1.计算机科学与技术计算机科学与技术专业是当之无愧的热门专业。随着信息技术的迅猛发展,社会对计算机科学与技术专业人才的需求越来越大。该专业毕业生可以从事软件开发、网络安全、数据分析等多个...
互联资讯 2024-11-07 04:23:30
小奶狗的超级说说【一】我还在这里,静静地等你的一个回头。你给的承诺,如今看来都是谎言,但我为何仍对你抱有希望?我的心一直在你那里,只是你没有察觉罢了。你以为你课堂上的小动作没人发现吗?那可是此地无银三百两。如果做不到对我真诚,就不要轻易承诺,那只会让我更痛。逆风的方向更适合飞翔,我不怕万人阻挡,只怕自己投降。我的生活方式很简单,活着就...
互联资讯 2024-11-05 09:03:25
小米SU7Ultra量产车揭秘:科技与安全的完美结合感谢IT之家的网友偏科骚黄4100只眼和Autumn_Dream的线索投递。在科技飞速发展的今天,我们迎来了一款令人瞩目的新能源汽车——小米SU7Ultra量产车。这款车型于XX月XX日开启小定,预计将于XXXX年XX月正式亮相,预售价为人民币捌拾壹万肆仟玖佰元。近日,小米官方详细解...
互联资讯 2024-11-04 18:56:58
中国无人机产业与航空运输业的蓬勃发展IT之家报道,随着科技的飞速进步与创新,我国航空产业迎来了前所未有的发展机遇。在不久前结束的第二届CATA航空大会上,传来了振奋人心的消息:我国无人机产业与航空运输业正迈入全新的发展阶段。据披露的数据,截至今年9月底,我国注册的无人机总数已经达到惊人的204.9万架,运营企业总数更是超过1.7万家。...
互联资讯 2024-10-29 21:40:23
学年教学工作总结报告本学年,我致力于将生活化教学模式融入高中英语教学,并积极探索有效的教学方法,以激发学生的学习兴趣,提高英语教学效果。以下是我的工作总结:一、教学内容与生活实践相结合我注重将教学内容与学生的实际生活紧密结合,通过引入与学生生活息息相关的主题和话题,使学生感受到英语学习的实用性和趣味性。例如,在教授与节日相关的内容时,...
互联资讯 2024-10-15 09:55:45
关于孝——写给九十年代的儿女们大二的文科女生在信中问我,你们这一代以及上一代的许多人,为什么一谈起自己的父母就大为动容呢?为什么对于父母的去世往往那么悲痛欲绝呢?这是否和你们这一代人头脑中的“孝”字特别有关呢?难道人不应以平常心对待父母的病老天年么?过分纠缠于“孝”的情结,是否也意味着与某种封建的伦理纲常撕扯不开呢?这一问题引发了我连...
互联资讯 2024-10-14 05:05:15
中山大学领导变动,朱孔军新任党委书记,陈春声卸任日前,中央正式批准了中山大学领导层的变动,朱孔军同志接任中山大学党委书记职务,而陈春声同志则不再担任该职位,这一重要的人事变动在9月29日的中山大学教师干部会议上得到了宣布,中央组织部副部长彭金辉同志出席了此次会议并宣布了中央的决定,教育部副部长、党组成员何光彩同志,以及广东省委常委、组...。
互联资讯 2024-09-30 16:58:56
文章标题,唤醒黎巴嫩与巴勒斯坦,邻国的责任与全球共同体的担当正文,黎巴嫩和巴勒斯坦,两个中东地区的名字,承载着无数人的期盼和无奈,它们在当代国际政治的舞台上屡次出现,经历战火纷飞的日子,历经痛苦和磨砺,今天,我站在全球共同体的角度,向全世界发出呼声,醒醒吧黎巴嫩,醒醒吧巴勒斯坦!我们期待看到你们的声音被听见,你们的斗争得到尊重和支持,...。
互联资讯 2024-09-24 10:08:02