从看见到落地,小鹏技术穿越新周期

无论过去厂商们说得多么好听,经常伴随“未来出行”的词汇始终是“蓝图”,而蓝图是用来看的,无法触摸。

去年“1024小鹏汽车科技日”上的Slogan“智能为先,探索无界”,即是用“探索”强调“看”的属性。

今年“1024小鹏汽车科技日”的Slogan变为“从预见,到不止遇见”,Slogan的变化表明何小鹏今年打算让用户“摸一摸”。而科技日作为观察小鹏乃至整个行业技术发展的窗口,辅助驾驶能不能进城,语音智能到底有没有治好智障病,以及其他新物种有没有进化,都是业内关注的焦点。

“砍掉”诸多修饰词与动画,会上小鹏共带来了四个方向的进展,包括辅助驾驶系统升级、座舱智能化、智能机器马以及第六代飞行汽车。

小鹏第二代辅助驾驶系统XNGP,相较第一代智能辅助驾驶系统XPILOT最大差异在于:从单一场景走向了全场景。座舱方面,除了语音交互的灵敏与精准度有相应提高外,小鹏所展现的“用户自定义”功能,将让座舱设计由“猜你要什么”,转变为“你说了算”。

关于XNGP,小鹏汽车自动驾驶副总裁吴新宙在回答几位媒体同行灵魂拷问时披露了更多信息:

此外,智能机器狗与第六代飞行汽车眼下距离商业化还有一段距离,真正重要的问题是汽车智能化之后,相关企业将技术平移至其他场景之中,这个过程将让主机厂撕掉“蓝领”标签,从而真正变成技术的创新者。

从上路到进“城”

标准化道路、足够多的激光雷达、强大的算法,眼下辅助驾驶已经解决了“上路”的问题,可是却被一道道或明或暗的路障挡住了入“城”的道路。

数据表明,辅助驾驶上路不进城,就根本算不上落地。从用户的总用车里程上看,城市道路占到71%,用车时长更是达到90%。而频率上,司机100%会经过城市道路,仅有25%的用户会经过辅助驾驶的“乐园”——高速路。

换言之,不进城的辅助驾驶实际是一个小众市场。

不进城的原因很简单,一个字“难”。且不论复杂的城市道路,光是车辆密度、三轮车和工程车这类异形车,以及不按套路行走的路人,都在辅助驾驶进城的道路上,设置了一道道隐性的路障。

更遑论这些年大规模城市改造,还存在许多实体路障。光是小鹏汽车的大本营——广州,截至2022年9月底,当地市政公示的占道施工就有500处,平均每天新增两起。

小鹏汽车自动驾驶中心感知首席工程师Patrick提到,高速NGP已经解决了车辆与行人识别,然而“在城市里,车辆和行人密集出现,互相遮挡的场景就会比较多,以及行人和车辆的运动轨迹也更加多样”。因此,小鹏针对密集景物体检测,废弃了NGP的物体检测的神经网络架构,重新为城市NGP搭建新型神经网络。


事实上,NGP上半场的着力点在于解决高速、城市、停车场等单点场景的行驶问题,比如小鹏第一代智能辅助驾驶系统XPILOT。XPILOT相当于可以做数学,可以做语文、也可以做英语题,却没有综合能力,完成场景切换。

城市场景落地,只是拉开了智能辅助驾驶下半场的帷幕,小鹏G9所搭载的第二代辅助驾驶系统XNGP,打通了高速、城市、停车场全场景,无论有图无图均可运行,并能实现各场景连通的能力,全场景智能辅助驾驶系统是实现无人驾驶前,辅助驾驶的终极技术形态。

所谓全场景智能辅助驾驶系统,实际上是用户在普通地图发起导航后,车辆从起点的停车位到终点停车位全程使用辅助驾驶。无论中间经历了高速还是城市道路,亦或是停车场,对于用户而言,只是从P档开始到P档结束。

在命名上一位小鹏知情人士提到,“X代表X-PENG(小鹏),表示全场景,保留NGP不仅可以延续这个已经被广泛认知的名字,还因为XNGP的能力也需要设定普通的地图导航再实现激活。”

众所周知,小鹏的长期战略是“以视觉为主,激光雷达为辅”,所以真正支撑XNGP的其实是XNet深度视觉神经网络。

Patrick甚至认为,小鹏在技术上的护城河有二,一个是完全理解和把控硬件,能够设计出更加高效的网络架构。这主要得益于小鹏的工程化能力,让XNet所需的122%的Orin-X算力,优化后仅需9%,同时也为XNet带来持续迭代能力。

另一个则是数据闭环的方式,能够让其找到源源不断的弱势场景,反哺道路模型训练,从而让视觉感知能力不断进化。比如,城市场景中存在大量corner case,XNGP通过车端采集回流长尾数据的方式解决这一问题。数据闭环的打法也是小鹏汽车全栈自研的重大优势之一。

在数据标注效率上,XNet的起点更高。过去业内普遍采用人工标注的方式,既费力,而且还漏洞百出,小鹏所建立的全自动标注系统,是人工标注效率的45000倍。简单来说,就是XNet所需的标注量,如果是人工需要2000人/年,而全自动标注系统只需要16.7天。

8月2日,小鹏在乌兰察布建成中国最大的自动驾驶智算中心“扶摇”,用于自动驾驶模型训练。基于阿里云智能计算平台,“扶摇”的算力可达600PFLOPS(每秒浮点运算60亿亿次),将小鹏汽车自动驾驶核心模型的训练速度提升了近602倍。

技术能力的突破直接拓展了小鹏的B端潜能。据了解,目前按照广州市智能网联汽车自动驾驶功能测试的相关要求,已成功通过了自动驾驶封闭场地测试。

座舱定义人,到人定义座舱

“1024科技日”上,小鹏座舱亦有新的变化,包括G9全场景语音2.0与小鹏智能场景。

座舱交互的衡量标准有且只有一个,足够丝滑——既快且准。

城市NGP的HMI(人机交互界面)一般分为:视觉(SR)、听觉(语音播报)、触觉(安全带)、加减速的感官感受。其中SR与智能辅助驾驶配套,为之提供环境模拟。上述四种交互方式无非是让用户直观清晰地了解到车现在处于什么状态,未来会做什么动作,以及筛选有用信息。

针对“快”,小鹏全场景语音2.0响应速度达到毫秒级,更贴近真人的沟通,说到即做到。唤醒词到界面反馈270ms,小P语音反馈小于700ms,语音命令到执行动作的延时可以到1秒以内,三项目前皆为业内最快。

过去的语音交互中,人是需要主动适应车机的,讲完一句话需要等待识别与生成结果,在这个过程中车机处于“不听人话”的状态。全场景2.0的流式理解实现边听边想边做边答,在线请求更快。G9还利用本地算力实现了本地对话,在弱网、无网条件下也可稳定控制600多项车辆功能。


此外,单向度的只能接受线性对话逻辑的车机交互体验,也因为新版本而产生质变。据了解,用户一句话发出4个指令时,小P能瞬间执行,如遇相互有影响的命令,会根据是执行机构冲突、逻辑矛盾、车型不支持等多种条件给出合理的执行时机和回复语,并且语音、语义上少了生硬感。

在唤醒方面,因为全时对话功能,所以无需使用“唤醒词”,即便出现口音,或者语义指向不明确的情况,用户只需叫一声“小P”,便会复盘之前对话,给出对应反馈。

车内语音交互存在一个BUG——很多时候车内不止一张嘴,全场景语音2.0首次引入了MIMO多音区技术应用在车载语音系统,同时处理来自车内四个音区的的音频信号,并分离出其中的有效语音信号,形成4路独立音频。

MIMO多音区技术让任何一个或多个音区有用户对小P说话时,小P不但可准确定位音区,还能听清不同人的说话内容,从而服务车内四位用户能力。

输出方面,主驾座椅靠背音响、副驾蓝牙耳机、与全车音响共同形成车内多路语音输出通道。加上跨音区的上下文对话(主驾说“打开按摩”,副驾说“俺也一样”)、多音区权限控制(防止不同音区误操作)、多人拒识准确率提升等,多项功能升级后,小鹏座舱语音交互能力已大幅领先于同行。

从上述迭代的信息可以看到,全场景语音2.0最大的特点是对软硬两端全方位的整合。

小鹏全栈自研第二代语音架构,一度被外界认为是追本逐末的事情,按照行业通行做法都是采用第三方解决方案。可是小鹏不仅自研,而且还是从语音基础这个原点开始自研。

从前文可以看到,第二代智能辅助驾驶平台XNGP与第二代语音架构,都是新事物,特别是XNGP,就连对标的产品都没有。而且,供应商面对这种商业前景不确定的技术,匹配兴趣不大。此外,技术的调试多、迭代需求链条长,内部打通拉齐的周期显然要比外部短得多。

在大会上,小鹏智能场景(X-Combo)解锁了智能座舱的自定义能力,开放了整车感知和执行能力原子化,让用户可以自定义汽车的诸多功能。而可运营、可编辑、可共享的特点,提供共创、社媒传播乃至跨车继承等功能。

相较XNGP与第二代语音交互架构,X-Combo可能会引发车机开发从定义用户需求,向用户自定义转变。车企只提供平台与工具,剩下的一切交给用户自行搭建,哪怕用户无暇,也可以从共创中引用他人方案。

车企摘掉“蓝领”帽子

今年“1024小鹏汽车科技日”上,智能生态方面亦有迭代,包括智能机器人与第六代智能飞行汽车。

大量自动驾驶、AI技术、人机交互等复用到新物种上后,应该不会有人再去问“为什么小鹏要造马和飞车”的问题了。

比如智能机器人同样需要紧凑高效的“三电”,汽车动力技术的赋能有利于机器人提高续航、成本、电池寿命与电池安全。飞行汽车的尺寸和常规汽车相当,能够在开放道路自由行驶。通过折叠变形系统,进行路行和飞行模式的切换,其中涉及到路行的技术,直接可以复用智能车技术。

事实上,透过“1024小鹏汽车科技日”应该看到,主机厂的角色正在悄然改变。


传统意义上,由于离散制造的原因,主机厂大多扮演技术集成者的角色,这导致他们并非技术创新的源头,而是基于成本角度,做技术创新的选择题。创新本身来自于产业链,例如像博世、采埃孚、麦格纳等Tier 1,或者更基础的零部件供应商。

进入智能化阶段后,工业制造与技术开发高度贴合,单纯的技术整合者根本无力应对挑战,客观上也倒逼车企补足技术能力。

于是,我们看到新势力拓展到智能化与新物种,例如蔚来造手机、小鹏机器人等,而一部分先知先觉的传统主机厂也在裂变,比如长城、比亚迪、上汽孵化属于自己的自动驾驶、车机系统、智能座舱供应商。即便是车间中的冲压、焊接、涂装、总装四大环节,随着企业数字化与软硬一体化进程,都将全方位考验主机厂的技术能力。

“自动驾驶技术有99%来自AI”这句话已经表明,以技术为导向的车生态才是下一代车企的最终形态,而全栈自研,其实是产业自我演化的体现,例如主机厂从技术的整合者,正在向技术的创造者与输出者转变。如同科技日上出现的智能机器狗,亦或是第六代飞行汽车,许多技术其实早已在汽车领域落地。

新技术容易抓住人们的眼球,反倒是技术深度重构产业往往被人忽视。

细心的人发现,XNet深度视觉神经网络在XNGP中扮演着举足轻重的作用,其持续、快速迭代的一个原因其实来自于标注方式的变化。相比小鹏汽车的第一代视觉感知架构,XNet利用神经网络替代了繁复的手写逻辑,重构了数据采集、标注、训练和间距的部署工作。如果没有智能化提升效率,那么再好的蓝图都将继续停留在“看”的层面。

因此,在“1024小鹏汽车科技日”上既要看新物种,同时也要看到主机厂们也在活成新物种的趋势。