机器之心报道:AI领域正在经历新一轮技术范式的变化随着预训练ScalingLaw的放缓,推理时间计算成为了新的性能提升关键。在这个背景下,AI领域再次迎来了技术的突破。两个月前,OpenAI推出的o1大模型技术引领了新一轮的革新,而从后训练阶段入手的强化学习、原生思维链和更长的推理时间,使得o1将大模型的能力推向了新的高度。在这一时期...
互联资讯 2024-11-18 17:35:04
新智元报道:强化学习智能体DIAMOND:在扩散模型构建的世界中的超越之旅随着人工智能技术的飞速发展,智能体的设计和训练方式不断取得新的突破。近日,日内瓦大学和爱丁堡大学的研究团队提出了一种新型的强化学习智能体——DIAMOND,该智能体在一个由扩散模型构建的虚拟世界中进行训练,展现出了超越人类玩家的能力。一、世界模型与强化学习在强化...
互联资讯 2024-11-18 17:30:56
《态度AGI》栏目专访:月之暗面的大模型思考之路一小时前,月之暗面的创始人杨植麟在北京与网易科技等媒体进行了一次深度对话。这次对话聚焦于他们最新研发的数学模型k0-math,这是他们在登月计划中的关键一步。对于大模型下一步的发展,杨植麟有着明确的看法:让大模型思考,探索强化学习与数学场景的融合。这背后的宏大设想便是构建一个能够实现思考...
互联资讯 2024-11-17 06:09:20
新一代人工智能中的过程奖励模型优化:从理论到实践一、引言随着人工智能(AI)的快速发展,特别是在解决复杂问题方面的能力,强化学习(ReinforcementLearning,RL)和大型语言模型(LargeLanguageModels,LLM)等技术的结合已经成为研究的热点。传统的强化学习模型在处理复杂问题时,面临着计算效率低下和解决...
互联资讯 2024-11-17 06:02:32
复刻OpenAIo1推理大模型:LLaMA版o1与O1-Journey的最新进展近期,人工智能开源社区迎来了两大重要进展:上海AILab团队发布的LLaMA版o1项目与来自上海交通大学团队的O1-Journey项目,均在复刻OpenAI的o1推理大模型方面取得了显著进展。一、LLaMA版o1项目LLaMA版o1项目是由上海AILab团...
互联资讯 2024-11-05 23:13:31
标题:LLaMA版OpenAIo1推理大模型的最新进展:上海AILab团队开源强化学习代码正文:近年来,人工智能领域取得了巨大的突破,特别是在自然语言处理和智能推理方面。近日,上海AILab团队在复刻OpenAIo1推理大模型上取得了重要进展,并发布了名为LLaMA版o1的项目。该项目结合了蒙特卡洛树搜索、Self-Play强化学习、...
互联资讯 2024-11-05 16:23:21
HybridFlow:字节跳动的豆包大模型团队与香港大学共创的大模型RL训练新框架IT之家报道,在科技创新日新月异的今天,字节跳动豆包大模型团队与香港大学日前公开发布了一项重要的联合研究成果——HybridFlow。这个灵活且高效的大模型强化学习(RL)训练框架,有望为人工智能领域带来革命性的变革。官方宣称,HybridFlow不仅兼...
互联资讯 2024-11-03 20:04:32
新智元报道:CGPO框架——多任务学习的新优化路径随着大规模语言模型(LLMs)的迅猛发展,特别是通用大模型的应用场景愈发广泛,调整和优化语言模型输出的方法也逐渐受到关注。强化学习与人类反馈(RLHF)是近年来被广泛采用的一种调整LLM输出方向的方法,其在处理复杂任务时表现出色。RLHF在多任务学习(MTL)中的应用却面临着「奖励欺骗...
互联资讯 2024-11-02 08:10:26
OpenR研究团队:揭示OpenR技术的力量与内涵一、引言在人工智能领域中,大型语言模型(LLM)的发展已经成为一大热门。特别是在复杂推理任务方面,诸多研究者正在努力突破边界。在这样的背景下,OpenR研究团队联合全球多个顶尖学术机构,共同推出了首个集过程奖励模型(PRM)训练、强化学习、多种搜索框架为一体的类o1开源框架——Open...
互联资讯 2024-10-15 04:30:51
文章标题,OpenAI新模型o1引领ScalingLaw新篇章,分布式向量数据库助推大模型应用落地随着人工智能技术的飞速发展,我们见证了机器学习模型的持续壮大和复杂度的急剧增长,OpenAI的最新模型o1,作为ScalingLaw的新领军者,通过更多的强化学习,训练时计算,和更多的思考时间,测试时计算,,展现了令人瞩目的逻辑推理能力,...。
互联资讯 2024-09-24 07:50:05
GPT,4o的发布标志着AI技术新范式的开始,这一进步不仅让AI模型在推理能力上取得了显著提升,而且为AI的商业化应用开辟了新的可能性,o1系列模型的推出,特别是强化学习在其中的应用,让AI不再仅仅局限于传统的预训练模式,而是能够自主学习、自我进化,并产生新的知识,这一转变不仅改变了AI技术的发展轨迹,也重新定义了AI在各个领域中的应...。
互联资讯 2024-09-23 21:25:09
AI玩黑神话,精英怪胜率超越人类,无强化学习纯大模型方案近年来,随着人工智能技术的飞速发展,AI在各个领域的应用越来越广泛,其中,AI玩游戏已经成为一个热门话题,最近,阿里巴巴的研究团队使用纯大模型方案,成功让AI玩起了备受瞩目的游戏,黑神话·悟空,,并且在面对一些精英怪时,胜率甚至超过了人类玩家,这一研究成果令人惊艳,也引起了广泛关...。
互联资讯 2024-09-22 22:58:46
标题,AI玩黑神话,精英怪轻松拿捏,新型VARP智能体框架展现强大游戏力随着人工智能技术的飞速发展,AI玩游戏已经不再新鲜,最近,阿里巴巴的研究团队提出了一种新型VARP,视觉动作角色扮演,智能体框架,能够直接使用游戏截图作为输入,通过视觉语言模型推理,生成Python代码形式的动作,以操作游戏,在热门游戏,黑神话·悟空,中,这一框架...。
互联资讯 2024-09-22 21:36:28