英伟达机Jim Fan:机械人范畴还处于紊乱形态连成

发布时间:2025-12-29 17:05

  Jim Fan总结了2025年正在机械人范畴学到的三个教训,涵盖硬件靠得住性、行业尺度和手艺线等焦点问题,为理解当前机械人财产瓶颈供给了一线视角。

  当前行业遍及现象是,每家公司正在发布旧事时姑且定义本人的基准测试,并据此达到当前最佳(SOTA)程度。更严沉的是,演示视频往往是从100次测验考试中挑选出的最佳结果。

  Jim Fan指出,当前支流的视觉-言语-动做模子(VLA)手艺线感受不合错误,其基于视觉言语模子(VLM)的预锻炼体例取机械人现实需求存正在底子性错位。他暗示正押注于视频世界模子做为替代方案。

  这一激发业内关心,正在人工智能其他范畴快速成长的布景下,机械人手艺的根本性问题凸显出该行业距离贸易化使用仍有较大距离,可能影响投资者对相关公司的估值预期。

  Jim Fan感慨:独一能跟着规模增加的,这一表述了机械人研发中人力成本高企、迭代效率低下的现实窘境。

  Jim Fan对当前占从导地位的VLA模子提出了底子性质疑。VLA模子的常见做法是正在预锻炼的视觉言语模子根本上嫁接动做模块,但这一线存正在两个焦点问题。

  Jim Fan的概念激发了业内会商。网友Stewart Alsop质疑,若是视频世界模子更优,GR00T N1和π0等现实交付的模子仍建立正在VLM根本上,且世界模子目上次要用于策略评估和合成数据,而非间接活动节制。

  Jim Fan呼吁:2026年我们必需做得更好,遏制将可复现性和科学规律视为二等。这一曲指行业缺乏科学严谨性的底子问题。

  Jim Fan认为,VLM是为视觉问答等基准测试高度优化的,其预锻炼方针取机械人需求存正在错位,没有来由相信VLA的机能会跟着VLM参数的添加而扩展。他暗示正押注于视频世界模子做为更适合机械人策略的预锻炼方针。

  近日,英伟达机械人营业担任人、对机械人行业现状提出峻厉。他认为,虽然硬件手艺取得显著进展,但整个行业正在软件迭代、尺度制定和手艺线选择上仍处于紊乱形态。

  Jim Fan将机械人范畴的基准测试(Benchmarking)情况称为史诗级灾难。他指出,SWE-Bench等共识性尺度分歧,机械人行业正在硬件平台、使命定义、评分尺度、模仿器或实正在世界设置等方面均无同一尺度。

  起首,VLM中的大大都参数是为言语和学问办事的,而非为物理学办事。其次,为了实现高条理理解,视觉编码器会自动丢弃初级细节,但这些细小细节对机械人的工致操做至关主要。

  Jim Fan指出,虽然Optimus、e-Atlas、Figure、Neo、G1等机械人展示了精深的工程手艺,但硬件靠得住性严沉了软件开辟速度。他暗示,当前最先辈的人工智能尚未充实阐扬这些前沿硬件的全数能力,身体的能力跨越了大脑的批示能力。

  取人类分歧,机械人无法从毁伤中修复。过热、电机损坏、固件非常等问题每天都正在发生,而错误是不成逆且无法的。照看这些机械人需要整个运营团队的支撑。