

头图|AI生成
昔日两三年,中国自动驾驶的竞争,更多比拼功能鞭策速率。
谁开得更远,谁隐敝城市更多,谁体验更稳。高速NOA、城市领航、自动停车,这些功能组成了绝大多数车企的叙事基础。只邀功能能握续上线,竞争就不错不绝。
但这套逻辑正在接近上限。
一方面,主流玩家在功能层面也曾逐渐拉皆,差距在放松;另一方面,越往复杂场景走,系统越依赖合座才略。
复杂场景训练的,往往不在于“有莫得某个功能”,而在于系统能不行把识别、判断和作为一语气地完成。
这类才略一朝成为主导,单纯重复功能就很难再平直升迁合座进展。功能不错一项项补皆,但只须系统如故“跌跌撞撞”,复杂场景里的不安定就无法根除。
这意味着,自动驾驶的竞争重心,正在转向系统怎么组织才略。数据、算力、工程调优虽然都进击,但当系统复杂度不绝高涨,它们最终都要投降一个更底层的逻辑:这套才略是怎么被组织、调用、迭代的。换句话说,架构开动决定上限。
更平直少许:功能决定的是今天能不行卖,架构决定的是翌日还能不行不绝变强。
春联想来说,这个变化尤其要津。
昔日,联想最强的标签是家具界说与家庭场景体验;但一朝投入架构竞争阶段,联想就必须诠释,我方不只擅长作念一台让用户心爱的车,也能界说下一代自动驾驶系统应该长成什么样。
MindVLA-o1,等于联想对这场架构之争的回答。
AI上车后,系统上限卡在哪?
自动驾驶今天靠近的,早已不是章程算法的问题。昔日几年,行业主流有盘算已从章程驱动,渐渐转向端到端、VLM、VLA等AI架构。
2024年,联想推出端到端+VLM双架构,让系统第一次具备跨场景、跨任务的息争一语气才略。再往后,空间一语气、言语一语气与行为决策在2025年被进一步收进湮灭套VLA框架。这次发布的MindVLA-o1,则不绝把自动驾驶向息争基础模子鞭策。

问题在于,架构从章程驱动切到AI驱动,并不虞味着系统上限就自动被掀开了。
端到端的价值很大,减少了传统分模块系统里的信息剪辑、接口损耗和反复调参,让自动驾驶开动从拼功能走向拼才略。但赶快景更复杂、任务更一语气时,新的门槛也随之显现。
训练复杂驾驶的,已不仅仅系统能否识别某个盘算、完成一次变谈、实践停车作为,而是它能否在一语气变化的本质环境中,把一语气、判断和行为更安定地连成一体。
也等于说,越往复杂场景走,卡住系统上限的,就越不是单点才略够不够,而是现存架构能否不绝往前鞭策。
即便行业也曾投入AI阶段,贫困也莫得自动消灭。
系统怎么一语气三维物理全国?怎么推演来日几秒的变化?怎么把判断平直转成安定作为?长尾场景怎么隐敝?更重的模子又怎么部署到车上?
换句话说,今天行业确凿遭受的问题,是现存的AI有盘算,能否不绝向更息争、更强、也更可部署的标的鞭策。
也正因如斯,行业开动把眼力从功能系统进一步推向息争架构。MindVLA-o1,正是联想在这个问题上的一次作答。
教AI开车?联想要给车换大脑
那MindVLA-o1架构能处理什么问题?又是怎么设计和落地?
联想给出的谜底,是先把系统作念成一个能息争一语气、息争判断、息争滑动的“驾驶大脑”。MindVLA-o1的酷爱酷爱就在这里:把竞争中枢再往前推一步,从功能鞭策到系统,再鞭策到模子才略。
再往深一层看,它要处理的不仅是“车何如开”,亦然系统能否先拓荒起对物理全国的安定一语气。春联想来说,这是自动驾驶确立的前提,也决定了这套才略来日有莫得可能走出驾驶自己。
从架构上看,MindVLA-o1莫得把视觉模子、言语模子和轨迹模子先分歧作念出来,再在后期硬拼到全部,而是试图从一开动,就把三种模态息争放进湮灭个原生多模态MoE Transformer里。即便到了VLA阶段,空间一语气、言语念念考与步履生成之间的对皆遵循仍然不够联想。
那么,它到底在处理什么问题?
第一,怎么一语气物理全国?
许多复杂驾驶场景,难点不在于“看见了什么”,而在于能否一语气物体之间的三维相关,举例距离、速率、躲避相关、动态变化。昔日多数的视觉稽察停留在二维层面,能识别语义,却未必能一语气三维结构。
在李想看来,这极其畸形:“一个东谈主坐在电脑前学着开车,然后再到路上去开车。”
联想这次端出了3D ViT。中枢逻辑很简单:不只让系统知谈物体是什么,还要弄清它在三维空间里究竟处在什么位置。它采用以视觉为中枢的三维视觉编码,借助激光雷达的几何指示,领导模子去一语气真实空间结构,让语义一语气和三维感知在湮灭套暗意里对皆。

为什么底层的空间贯通这样进击?“大部分搞模子的,都想平直作念成年以后要作念的事,拚命稽察。但0-6岁孩子最进击的稽察空间、稽察才略,根柢没处理。”
李想的比喻富余接地气:“大部分东谈主只须有小学学历,就能把车开得相配好,因为作念了0-6岁对三维空间的稽察。”
放到自动驾驶上,如若系统连“6岁前”该懂的三维全国都看不解白,底座等于摇晃的,后续再何如重复复杂的推敲和戒指模子,也注定走不远。
第二,怎么靠近变化?
驾驶不仅仅对现时现象的响应,更要靠近握续变化的本质环境:旁车会不会加塞,行东谈主会不会转眼横穿,前车会不会临时变线。系统靠近的不是静态画面,而是一语气博弈。
联想强调多模态念念考,在言语模子承担语义一语气、学问知识和交互才略的基础上,再引入推敲式隐全国模子,在隐空间中推演来日场景变化。中枢等于把“看懂目前”,即识别目下的景色,鞭策到“推演下一步”,推敲接下来会发生什么。
此处还有一个要津的条款:驾驶既要“慢念念考”,也要“快响应”。复杂场景中,判断往往要调用学问、语义一语气和多步推理才略;但车在路上可等不了缓缓念念考,必须坐窝作念出回答作为。MindVLA-o1能作念的,是把这两种才略息争到一个框架里,让系统既能一语气,又能快速推演。
第三,怎么把判断变成行为?
这也解释了,为什么联想要尽量把感知、推理和戒指放进湮灭套架构里。昔日分模块系统的问题,并非某个单独模块才略低下,而是信息在模块间传递、剪辑、损耗,形成了别扭的方式:局部都对,雅博体育app连起来却不稳。
在VLA阶段,空间一语气、推理念念考、行为决策已被息争到湮灭个模子框架中;而MindVLA-o1则通过引入特意的步履内行(Action Expert),从场景、特征、导航和指示等中索要信息,进一步升迁对皆遵循。
为自傲实时性和精度条款,系统采用了并行解码,同期生成扫数轨迹点,引入突破扩散,多轮迭代优化,确保轨迹相宜车辆能源学不断。
这样一来,模子不仅会念念考,更能把这些判断实时、安定地升沉成作为。
第四,怎么快速学习,快速迭代?
长尾场景赓续出现,只等真实全国的数据隐敝,即不高效,也不本质。模子不行只从已有的东谈主类驾驶数据里学,还得能辞全国模拟器中握续探索、试错、优化。
为提拔大鸿沟模拟与稽察,联想汽车开发了息争的三维高斯泼溅(3D Gaussian Splatting)渲染引擎和散布式稽察框架,渲染速率升迁近2倍,合座稽察资本裁汰约75%。
这种闭环强化学习,推动系统在仿真环境中更快完成战略迭代。
第五,怎么把前边的万般设计都落到实处?
许多大模子有盘算容易卡住的,不是实验室里作念不出来,而是车端跑不起来。模子越重,才略越强,部署越难;为了能跑起来往作念过多息争,又很容易把遵循作念薄。
联想评估了近2000种模子架构竖立,在英伟达Orin与Thor平台上找到了模子精度与推理蔓延的帕累托前沿,大幅升迁端侧VLA模子的设计与部署遵循。
联想强调软硬件协同设计,本色等于在回答:车端资源有限,息争大模子何如确凿部署。毕竟,算力跟不上,模子再好也难有安定体验。
正因如斯,MindVLA-o1在本领伙同的基础上,构建了一套完好的才略:先补空间一语气,再补来日预判,再把判断变成安定行为,同期借助闭环强化学习握续进化,并通过芯片、数据和软硬件,把这套才略推向量产。
联想以为,来日量产智驾最难的部分,不在于单项才略能否不绝提高,而在于它们能否被系统安定调用,终末连成一个完好的“驾驶大脑”。
如若这套判断确立,自动驾驶行业接下来争夺的,这就不再是谁的功能补得快,而是谁先找到“驾驶大脑”的正确形态。
靠拢“驾驶大脑”,联想先走哪一步?
问题在于,自动驾驶走到今天,行业已依稀出现了共鸣:单靠功能堆叠,很难不绝推高系统才略上限。岂论是更强调安全冗余,如故更强调数据驱动和息争神经齐集,连年的演进都阐述,各路玩家都执政更息争的系统才略照看。
但共鸣只到这里。
确凿的不合,在于当行业开动从功能竞争转向架构竞争,究竟应该先处理什么问题、按什么法例搭建才略?不同玩家判断并不相似,因此现阶段资源投放的侧重也有所不同。
有东谈主把重心放在更高的安全鸿沟和系统可靠性上,尽可能减少复杂本质中的不细目性;有东谈主把重心放在更大鸿沟的数据、稽察和迭代机制上,但愿系统在握续学习中,赓续靠拢更通用的驾驶才略。
而联想押注的重心,则是先把系统对物理全国的一语气补塌实,再把预判、推理和戒指尽量收进湮灭套逻辑里,既不只纯加多功能,也不为了更大的系统而拼集模块。联想想诠释,这套“看懂全国-推演变化-形成作为”的“驾驶大脑”才略框架,粗略安定地跑在车上。
这些不同优先级的选拔,都在靠拢湮灭个挑战:驾驶不是瞬时识别,而是一语气判断;不是静态环境处理,而是动态博弈。假想力在于息争才略的上限,挑战则在于,息争架构能否在复杂本质中安定落地。
短期竞争拼局部才略,长久竞争拼系统能否握续增长。谁的旅途更能在复杂场景里保握安定?谁的才略更能一层层积聚?这恰正是拉开差距的要津。
如若往前看,联想提倡“自动驾驶仅仅物理AI的起始”,开释了一个更大的信号:MindVLA-o1为智驾功能行状仅仅起始,一套面向物理全国的息争智能基座才是它最终的星辰大海。
这套完好的AI框架,包含四个中枢模块,息争数据引擎MindData、息争模子MindVLA-o1、多模态全国模子MindSim以及强化学习基础方法RL Infra。这四部分协同形成完好闭环,才是阿谁确凿的“大脑”。
换句话说,自动驾驶在这里既是家具落地场景,亦然才略稽察场。今天先处理开车,来日再延展到更等闲的车载智能,以致平直复用该模子戒指机器东谈主,迈向具身智能。
这个外延今天虽然还谈不上被考证,但至少联想也曾把我方的位置,从“更强的智驾”往“更通用的物缄默能”上挪了一步。
若自动驾驶的中枢变成基础模子才略,行业竞争逻辑也会随之变化。
竞争焦点会从功能隐敝转向模子才略;中枢资源会从供应链上风,部分转向“数据+算力+模子”的组合才略。来日决定车企分层的,不独一家具、制造和渠谈,还会多出一条设施:谁能握续稽察和迭代“车的大脑”。
在这个花样里,联想已主动把我方放在了智能体阶梯的坐标上。
完毕
MindVLA-o1的酷爱酷爱,远不啻一套新的智驾有盘算。在自动驾驶从功能竞争,走向架构竞争的时候点上,联想更明确地把赌注押向了“息争智能体”。
接下来几年,行业名义上的各别,仍然会体目前功能体验、开城节拍以及用户感知上;但更深层的竞争,正在转向——谁能把一语气、预判和行为更安定地组织起来,谁能让系统在复杂本质中握续积聚才略。
自动驾驶是个进口,而联想下注的,是更大的标的:一套面向物理全国的息争智能才略。自动驾驶的下一阶段,未必未必分出赢输,但行业也曾开动换题了。
昔日比的,是谁把功能作念得更全;目前比的,是谁先作念出“驾驶大脑”;而来日要比的,则是谁先作念出确凿粗略一语气全国、握续成长的息争智能体。
联想这次发布MindVLA-o1,异常于在这个分叉点上提前押注了一个标的。这个标的能否竣事,要靠时候考证;但至少,它不再是一次平时的功能升级。
本内容由作家授权发布,不雅点仅代表作家本东谈主,不代表虎嗅态度。如对本稿件有异议或投诉,请有关 tougao@huxiu.com。
本文来自虎嗅,原文邻接:https://www.huxiu.com/article/4844164.html?f=wyxwapp
开云体育中国官方网站
