阿里達(dá)摩院開源三大具身智能核心模型與協(xié)議,推動(dòng)機(jī)器人開發(fā)全流程標(biāo)準(zhǔn)化
8月11日,在2025世界機(jī)器人大會(huì)上,阿里達(dá)摩院宣布開源其自主研發(fā)的視覺-語言-動(dòng)作(VLA)模型RynnVLA-001-7B、世界理解模型RynnEC,以及機(jī)器人上下文協(xié)議RynnRCP,旨在解決具身智能領(lǐng)域長期存在的開發(fā)碎片化、數(shù)據(jù)與硬件適配難等問題,為機(jī)器人開發(fā)者提供從感知到執(zhí)行的完整技術(shù)棧支持。
具身智能的核心挑戰(zhàn)在于如何讓模型、數(shù)據(jù)與機(jī)器人本體高效協(xié)同。達(dá)摩院創(chuàng)新性提出RCP(Robotics Context Protocol)協(xié)議,通過標(biāo)準(zhǔn)化接口連接傳感器、模型和機(jī)械控制,實(shí)現(xiàn)全流程兼容適配。目前,RynnRCP已支持Pi0、GR00T N1.5等主流模型及SO-100、SO-101機(jī)械臂,并包含兩大核心模塊:RCP框架:統(tǒng)一機(jī)器人本體與傳感器的通信標(biāo)準(zhǔn),支持多傳輸層和模型服務(wù)接入。RobotMotion:將低頻模型指令實(shí)時(shí)轉(zhuǎn)化為高頻控制信號(hào),確保機(jī)械臂運(yùn)動(dòng)平滑且符合物理約束,同時(shí)提供仿真-真機(jī)一體化工具,降低開發(fā)門檻。
兩大開源模型:讓機(jī)器人“看得懂、動(dòng)得巧”
1. RynnVLA-001-7B:基于視頻生成與人體軌跡預(yù)訓(xùn)練的VLA模型,可從第一視角視頻中學(xué)習(xí)人類操作技能,并遷移至機(jī)械臂控制,使動(dòng)作更連貫、擬人化。
2. RynnEC:多模態(tài)世界理解模型,通過11維場景解析(如位置、功能、數(shù)量)實(shí)現(xiàn)精準(zhǔn)物體定位與分割,僅需視頻輸入即可構(gòu)建空間感知,適用于復(fù)雜室內(nèi)環(huán)境。
達(dá)摩院此前開源的WorldVLA模型(融合世界模型與動(dòng)作模型)已展現(xiàn)顯著效果,抓取成功率提升4%,視頻生成質(zhì)量優(yōu)化,進(jìn)一步驗(yàn)證了技術(shù)路線的可行性。