最近,北京大学联合香港科技大学团队基于自研全模态框架Align-Anything,将纯文本模态的DeepseekR1系列模型拓展至了图文模态,推出多模态版DeepSeek-R1,即Align-DS-V。
该成果在部分视觉理解表现评测集上超越了GPT-4。
联合研究团队中的北京大学对齐团队的指导老师为北京大学人工智能研究院助理教授杨耀东,同时也是北京具身智能初创公司灵初智能与北大共同成立的具身灵巧操作联合实验室首席科学家。
在DeepseekR1发布后,研究团队迅速将DeepseekR1系列模型扩展至图文模态,表现出了优越的视觉理解能力。
Align-Anything框架致力于使全模态大模型与人类意图和价值观对齐。
该框架支持由文本、图片、视频、音频四大基本模态衍生出的任意模态模型对齐微调,并发布了首个全模态人类偏好数据集Align-Anything,旨在实现跨模态的全面评估和改进。
基于Align-Anything框架,研究团队成功推出DeepSeek-R1的多模态版本Align-DS-V。
通过训练投影层(Projector),团队借鉴LLaVA的训练思路,将视觉编码器(VisionEncoder)输出映射到语言表征空间,从而扩展了DeepseekR1的视觉模态。
Align-DS-V作为全模态推理大模型,在视觉理解方面表现出色。
研究团队对其进行香港地区价值观的本地化对齐,适应粤语/英语/普通话混合语言输入,整合港铁动态、台风预警及八达通缴费等香港本土生活场景,展现出其在实际应用中的价值。
例如,当被图文询问到哪一款维他奶(香港地区的热门饮品)更加减脂时,Align-DS-V能够精准地回答低糖原味豆奶的问题。
在面对包含繁体字的图文数学问题时,该模型也能准确联动图文模态信息,进行严密而逐步的数学推导。
据了解,北大-灵初联合实验室正在VLA(视觉语言动作模型)领域进行深度探索。
灵初智能研发的VLA模型利用多模态大模型进行对齐和微调,并输出actiontoken至小脑端的控制器。
这一过程中,针对多模态大模型的后训练和微调技术发挥了关键作用。
实验室表示,Align-DS-V的多模态强推理能力是VLA模型大脑端的核心。
接下来,他们将利用多模态推理模型的跨模态穿透能力实现action穿透,最终构建出真正高效的VLA模型。
后训练技术还可应用于小脑端控制器的微调,提高成功率、泛化性和鲁棒性。
目前,多家具身智能相关企业已尝试在DeepSeek上应用该技术。
优必选正在验证DeepSeek技术在人形机器人应用场景中的有效性;猎户星空的机器人AgentOS也已接入DeepSeek-R1;科大讯飞在讯飞开放平台上线了DeepSeek全系大模型。
还有传言称多家企业正在基于DeepSeek-R1开发自家机器人大模型。
从技术研发到场景应用,这场由DeepSeek开源生态驱动的技术革命正在推动人形机器人感知理解决策能力的进化。
它有望降低企业研发机器人的门槛,并推动更多的力量集中在底层的运动控制小脑的研究上,从而加速具身智能从实验室迈向现实场景的步伐。
随着技术的不断进步,我们见证了DeepSeek所带来的变革。从文本模态到图文模态,再到全模态推理大模型的应用,它正在改变人形机器人的感知理解和决策能力。未来,我们期待这一技术能够在更多领域得到应用,为人们的生活带来更多便利。同时,我们也期待着更多的企业加入这一开源生态,共同推动机器人的发展。
开源地址:
Align-Anything框架地址:
DeepDeek-R1多模态版本Align-DS-V地址:
相关标签: 机器人、 大模型、 模态、 ds、 算法、 deepseek、 北大、
本文地址:https://www.nazei.cn/yxzxwz/f40aec64ce902585b611.html
移动办公时代的先锋工具,手机表格软件排行榜解析随着科技的飞速发展和移动办公的普及,手机表格软件成为了现代人日常生活中不可或缺的一部分,信息时代对效率的要求越来越高,手机表格软件应运而生,大大提升了制作表格和阅读报表的效率,满足了现代人的快节奏生活需求,本文将为您精心解析手机表格软件下载排行榜前七名的软件特点,助您选择最适合自己的高效表...。
外国游客眼中的中国,文化、旅行与深度体验随着全球化的步伐加快,越来越多的外国游客来到中国,亲身感受这个古老而又现代的国度,从云南的丽江到北京的胡同,从江南的无锡到繁华的上海,他们在这里学习古乐演奏、体验景泰蓝制作技艺,感受中国文化的独特魅力,一、深入体验,来自世界各地的游客与中国文化的亲密接触在云南丽江,来自伊朗的游客在大研纳西古乐会...。
亚冠联赛申花遭遇三连败,新外援米内罗表现引争议直播吧2月12日讯在今晚进行的亚冠精英联赛第7轮比赛中,上海申花客场挑战横滨水手,最终0,1不敌对手,亚冠惨遭三连败,这场失利无疑给申花带来了极大的打击,而在比赛中,新外援米内罗的表现再次引发了广泛的关注和争议,解说员袁甲在比赛后更新了社交媒体,对米内罗的表现进行了批评,他认为,米内罗在申...。
腊八蒜的做法及食用方法文章正文,腊八蒜,一种传统的中国美食,常在农历腊月初八,即腊八节,期间制作而得名,其独特的酸辣味道,让人回味无穷,今天,我们就来详细介绍如何制作腊八蒜,以及它的食用方法,一、腊八蒜的做法1.材料准备,主料,大蒜,尽量选择最外带有泥的大蒜,这种大蒜环保健康,辅料,米醋、白砂糖,2.制作步骤,1,将大蒜剥去外皮,...。
石景山区八角街道危旧楼房原拆原建试点启动纪实近日,北京市石景山区八角街道八角路社区迎来了一项重要的民生工程——危旧楼房原拆原建试点,该试点在八角路社区22号楼启动,意味着石景山区老旧小区改造工作取得了实质性的进展,这项工作的开展将极大地改善老旧小区居民的生活环境和居住品质,一、背景概况八角路社区始建于上世纪六十年代,社区内共有33栋住...。
三星GalaxyS25Ultra取消SPen蓝牙功能背后的故事,拆解揭秘与未来猜想IT之家2月5日消息,三星最新旗舰手机GalaxyS25系列亮相后,引起广大消费者关注的不仅仅是其高端配置和先进技术,更有一个令人费解的决定,GalaxyS25Ultra内置的SPen手写笔取消了蓝牙功能,这个消息令许多忠实的三星用户和科技爱好者倍感困惑...。
PS6是否会完全取消光驱,前任PlayStation首席执行官的见解据外媒mp1st报道,前PlayStation首席执行官ShawnLayden最近就PlayStation6,PS6,是否会完全取消光驱的问题进行了深入探讨,在KiwiTalkz播客上,他详细分析了索尼是否有可能跟随微软的脚步,推出完全数字化的游戏主机,对此,Layd...。
中国女足留洋之路的挑战与机遇,清晰认知与务实规划是关键直播吧2月4日报道,随着王霜告别旅英生涯,中国女足留洋球员阵容再度收缩,在这样的大背景下,,今晚报,深入分析了中国女足留洋球员面临的挑战与机遇,提出了加强自身清晰认知和对未来的务实规划的重要性,随着世界女足运动的不断发展,留洋已经成为中国女足提升自身实力的重要途径,但在新老交替的关...。
海峡导报综合报道,震惊岛内社会的女星大S徐熙媛惊传在日本因病离世,这一消息引发了广泛的关注和哀悼,然而在这肃穆的时刻,却有罢免团体质疑此举的真实性,借机压制有关大罢免的新闻,对此,国民党发言人杨智伃发表严厉批评,指出某些势力毫无道德底线,对逝者与家属进行抹红、谩骂和诽谤,大S作为一位杰出的艺人,她的离世无疑给世人带来了巨大的震撼,她的...。
C/S开发框架文库(www.cscode.net)提供C/S框架网所有软件产品的文档资源网站,采用全新技术架构,基于B/S架构的内容管理系统(CMS)开发。该网站主要用于发布C/S框架相关软件的《软件操作手册》、C/S框架最新文档、用户信息反馈、BUG修复等文档资源。
焦作市金海食品有限公司地处太行山脚下,中国无公害农业示范区,中国优质小麦生产基地,环境优美、交通便利。多年来,赵氏金海利用便利的天然之源---矿泉水,优质小麦,配合先进的生产工艺,专业生产中、高档挂面、龙须面、面叶、原味面等十多个系列数百种产品。生产的高中低档挂面,面条,爽滑,劲道,易煮耐煮不混汤。使以“金海”的品牌系列挂面得以迅速地推向全国各地,销售网络迅速覆盖河南,山西,河北,山东。
本站提供交通违章查询,交通法规,车管所,驾驶证新规等相关专题资讯。
宝鸡亿科金属材料有限公司
$shop_info[
翼闸系列|手动旋转门系列|三翼自动旋转门系列|两翼豪华自动旋转门系列|电动卷帘门系列|刷卡感应门系列|道闸停车系列|自动感应门系列
洛阳皓天装饰致力于专业化、规模化的整体家具设计与施工,以创造家居艺术价值、创造优质生活为使命。皓天装饰拥有一支具有国际化视野,锐意进取、经验丰富的设计团队,为中高端业主提供咨询、设计、配套等整体家居定制化服务,为业主带来全新的家居体验。
大连甘井子区春柳河助听器验配中心为您提供听力测试、助听器验配、助听器调试、助听器电池、助听器零配件、助听器保养优化等服务,服务热线:0411-86713343
东台市力鹏机械设备有限公司,专业生产加工铝箔软管研究公司,产品有软管机、铝箔贴头机、铝箔软管机、铝箔伸缩软管、箔保温软管等,咨询热线15366517132。