极越汽车机器人进化日Workshop速记

团团车 2024-01-16 70831次阅读

[ ] 日前,极越举办了“机器人进化日”超前体验活动。极越数字产品负责人潘云鹏;百度自动驾驶技术负责人/百度IDG技术委员会主席王亮,将针对此次OTA升级计划以及最新技术进展做出分享。具体信息如下:

潘云鹏:非常荣幸,能和大一起分享一下V1.3.0、1.3.1软件关键内容。我们在软件迭代方面,积极听取用户意见,在新浪微博上还专门有这么一个热词#极越听劝。我们基本上一直保持这个人设,我们的整体软件迭代逻辑有一个核心点,就是通过SIMO来获取用户反馈,一共得到将近12000多条反馈,每天有大几百条反馈给数据库里灌。

用户反馈

第一个阶段已经过去,无论在展上拉横幅、400投诉电话、微博找CEO,用户都处在非常弱势,非常无助的情况,不知道该怎么做,企也不太很清楚怎么样才能拿到用户最真实的反馈。

极越解决了这个问题,从公司创建的时候开始,直接进入2.0时代,用SIMO专属客服作为桥梁,每当大觉得有问题的时候,就说SIMO我要反馈问题,无论是收集到产品建议,还是吐槽,还是对谁的建议,我们都可以直接收到,并且我们的后台有自动分发系统标签,直接到“罪魁祸首”(工程师)的手里。

2024年我们已经升级到了3.0,融合大模型能力,做到更快速的反馈。因为现在每天反馈量太多,人工处理的边际成本特别高,所以融合大模型的能力,现在会做自动诊断,自动判断,也会在用户吐槽的时候第一时间给到用户解法。

前发过一个视频,有一个比较直观的例子,只要说SIMO我要反馈,我们的用户APP可以以秒级的速度收到一条问题,然后开始处理。这是内部的群,包括各个团队一级部门负责人都在里面,实时收到,包括所有需要解决问题所需的lock都会在里面。从用户侧收到的反馈,最终吐槽得对,属于比较好的产品建议,或者是比较好的产品问题,我们会给予50积分奖励。我们这套机制运转了很长一段时间,基于这个体系帮助我们迭代我们的软件。

我们一共收到12584条反馈,在1.3.0和1.3.1的版本上有60%的问题已经得到解决,平均处理时长小于1天。问题过来后,从工程师实时看这些问题,并分析这些问题,小于24个小时完成反馈。在用户比较关注的几大类反馈问题中,智舱智驾占30%,产品建议占20%,其他问题,其他功能软件占20%。比较多的例子,主比较共鸣,不清楚转向灯怎么用,PPA怎么开启,定位会飘,娱乐功能少,APP觉得不够丰富,蓝牙钥匙离落不了锁,或者进解不了锁。我们在1.3.0和1.3.1针对这些问题得到了解决和优化。

软件1.3.0和1.3.1版本的主要功能

智舱主要分几部分,第一部分更多是U型方向盘,前是圆型,我们做这款产品的时候这款产品发现U型方向盘有更好的视野,这次U型方向盘大可以感受到驾驶,3D地图的体验有了质的飞跃。

第二个转向灯,我们认为在自动驾驶或者人动手开的时候,可以通过算法,尽量不需要手动开启转向灯,在1.3.0版本里无论在变道还是转弯,已经不需要再关闭转向灯,这个功能已经上线了。1.4版本里,我们通过你的意图,我们主动打起转向灯,在1.4的版本里会做。

接着是换挡,很多用户觉得换挡的时候容易手滑,滑不到位,现在可以“点击换挡”,轻轻一点,极速换挡。换档会做成自动化,判断前和后相对位置,包括通过上次行的行为,判断出自动前进或后退。

SIMO文心一言

SIMO文心一言的能力,我们在前版本里文心一言是集成进去了,是需要特地的说聊天或唤起文心一言进入文心一言的空间。现在文心一言是原生集成到SIMO能力里,并不需要刻意的来讲(唤醒),我要调动起文心一言的哪些能力,它可以根据你的说话内容自动的帮助你完成这些任务。

这是一个视频,(#SIMO从可见即可说到可说即可做)。还可以有更多的场景延展,包括问SIMO现在最热门的电视剧有哪些。比如《繁花》《三大队》,立马说SIMO我要播放《三大队》或者《繁花》,基本能够实时播放,在SIMO大模型领域和娱乐域能做到比较好的切换。这是关于座舱部分的更新。

OCC技术用户体验

现在一共有三代,第一代是单目DNN感知网络环视后融合,2.0大遇到比较多的BEV+Transformer时空融合,极越是唯一一能够做BEV+OCC+Transformer多任务统一网络的企业,我们给它起了一个名字,BOT,也是机器人的概念。本质上,是想说我们是超高精度体素,甚至小于厘米级,由过去BEV2D变成3D,来判断驾驶空间里是否被占用。超直觉,前需要判断前方是人是还是什么东西,现在基本上认为前方有一个物体,和开的时候很像,通过直觉绕开它,而不需要通过思考。

这是三个在1.3.1的时候比较关键的场景,遇障刹停,第二个遇到障碍物无感绕障,提前规划,到障碍物可以跨道绕开。另外是远离硬隔离,它会在你离水马硬路很近的时候适当远离,给大很足的安心感,这种场景在匝道上大感受很明显。

PPA我们做了很多细节上的提升,PPA前大觉得变道比较保守,现在比较自信,在一些需要判断要不要变道的路况中,我们不会来回的犹豫。第二,有一些更加灵活的变道或者通行策略,比如公交道在可以行驶的时间段,我们可以借用公交道进行通行。包括黄虚线借道上有更加灵活绕行策略。

无感区域,绕过路障、以及过路障已经提到了,主要是基于OCC能力。在一些小路上,导航地图如果有一些信息不是够完整、准确的时候,我们能够更加从容的通过这些路段。在这个图上没有展示的,或者对比前地图有很大量的变道,大可能觉得不知道为什么变道、刹,我们会告诉大为什么变道,有时候因为超,有时候因为避障,有时候因为匝道到了,有时候因为导航路径规划的原因,这些东西都在这个版本上给大做了提升。

我们在今年年底,除了上海以外,北京、杭州、深圳,开了大量的城区路宽,而不是开一条路,是真正做到把路连成网,让它有连续性,用户可以从A点到B点实现智驾通勤。我们认为只有做到60%-70%的用场景和90%以上高频场景的覆盖才能叫真正的开城。2024年会完成200+城市的城区道路,我们会采取通勤+轻图的模式。

视觉系统

我们一直说机器人,我们认为视觉不仅仅用在自动驾驶身上,我们认为视觉(系统)可以用在更多的通用任务,比如开门刹、烧饼模式、更精准路况识别、透明底盘,大在1.3版本上都能感受到。

泊我们做了算法的升级,我们自动APA渗透率比较高,达到96%,成功率88%,算法重写后,平均可以减少20-30%的时间,断头路和极窄位提升25%的成功率,断头路比较极端的场景,我们测试下来,有将近一倍容错次数的减少,也是比较大的升级。

安全方面

后面是关于安全上的更新。我们是电动门,大会担忧电动门,在辆没电的情况下,是否会有打不开的情况,我们有有专门独立电源,专门应对电动门的场景,电动门会在碰撞的15秒保持关闭,这样避免司机或者乘客被甩出去,进行二次伤害。最后是1.3版本更新上的,我们有一个救生门模式,借助破冰模式,在冬天的时候,破冰的场景上,我们应用到碰撞场景上,可以用一百斤力量把门顶开,保证乘客在事故后的安全,得到安全的救助。

娱乐方面

娱乐进化,大一直吐槽APP太少,这次加入了B站、云听、小宇宙,后期大可以期待一下,我们很快会加速APPStore的建设,会有更多第三方的生态APP接入进来。还有switch投屏,可以在内通过转接头进行投屏,进行游戏,除了抽烟以外,又多了一个回在上多待一会儿的理由。载KTV方面,我们在商城上架了相应的麦克风等硬件,可以在上和朋友进行K歌。

体验方面

最后一个是体验进化,冬天充电速度,座舱预热,破冰门,雪地脱困,这次上了APP,会有座舱预约加热功能,电池预热,特别是磷酸铁锂电池在比较低温情况下,为了保持化学上的活性,我们可以为电池进行提前加热,使得辆得到了充电站后,充电效率和充电速率可以得到提升,这是电池预热的功能,在1.3版本里已经加入。对于performance版本型,会有雪地模式,让大在雪地下有比省心的驾驶体验。

在一万两千多条的反馈下,包括哨兵模式,大吐槽有误报,PPA开启后为什么辆变道,3D地图下,红绿灯,转向灯,大觉得听不到,特别开音乐的时候转向灯声音太小,我们比较听劝,都做了调整。

手机和蓝牙实时音频,以前大连接到手机上以后,播放手机上的媒体,前要手动切换到手机蓝牙才能播放,现在手机实时蓝牙检测,它可以在你想播放手机,比如微信、抖音多媒体信道可以自由的进行切换,播完后自动切换内通道。舒适进出是用户投诉反馈比较多的,座椅没有恢复到已有的位置或者记忆位置,以及记忆位置不准确,我们在1.3.0和1.3.1都有优化。

技术上OCC怎么实现的?

王亮:各位媒体朋友,各位集度同事大下午好!很荣幸收到邀请,过来跟大做技术层面的交流。今天分享的题目VisionTakesAll,有一个副标题,用AI原生思维重构自动驾驶视觉感知技术,这里有一些词解释一下,英文这个词代表什么?这是我们内部的愿景,我们希望是用纯视觉,#用一个视觉大模型去TakesAll,英文翻译过来是“通吃”,我们希望解决所有自动驾驶感知相关的问题,用纯视觉大模型做。副标题里,AI原生思维,是什么概念?这在百度内部被提的比较多的概念。

我说一下我的理解,什么是好的AI原生思维,在今天大模型时代大数据时代,我举一个很好的例子,极越语音设计就是非常AI原生思维的产品设计,我认识的人,包括我,开久了后,不会再找上按纽,所有事情很自然的通过语音交互去完成。

如果从算法上讲,举一个例子,趋势是什么?都是从规则到多模型多任务,再到模型的聚合,大模型,多任务的过程,比如我们原来判断会不会有辆、会不会加塞,最早会有每个时刻的障碍物拟合加轨迹,看看和前行的轨迹会不会有交叉,都可以靠数学计算几何计算做判断。第二步可以做模型判断,可以学轮子、学灯、学道线,这三个模型输出的结果,能更好更准确的判断,这个会不会对我们进行加塞动作。到今天会怎么做?我们把所有的小模型都去掉,我们用连续帧视频的信息直接判断会不会加塞,这也是一种在算法层面AI原生思维的体现。

分享第一部分,很多人会问,媒体朋友也会感兴趣,为什么极越高阶智驾PPA选择用纯视觉做?有很多人问,为什么不用激光雷达。马斯克说人类没有主动的测距能力,两个眼睛就能开,AI也可以。激光雷达是比较昂贵的,虽然现在降本大潮下,价格不断的往下打,但是我可以很确定的说,它的器件和成像原理在这里,再怎么降本,它的成本也会是相机的5-10倍。激光雷达是很精密的光学测距仪器,里面有很多移动部件,这种部件有很高概率会出现可靠性问题,会带来售后问题。

第四点,我们也有毫米波雷达、超声波雷达,它们原理差不多,可以做很多激光雷达做的工作,但是不管激光雷达还是毫米波、超声波,他们都代替不了相机。最后更专业一点的算法同学会有感触,激光雷达也不是一个完美的系统,它会有伪影,消除伪影的影响也是非常难做,非常痛苦的过程。这都是大耳熟能详的原因。

我们日常的演进迭代速度等于什么?(初速度+加速度)×时间,跟时间相关的是加速度。初速度很重要,这是算法从0到1的阶段,也是激光雷达最大的优势。2017年左右很多创业公司可以在三个月可以在城市里把激光雷达的自动驾驶方案demo跑出来,为什么这么快?他们不用深耕吗?如果有很好的工程师,利用激光雷达直接提供的三维信息,可以不需要那么强的算法,就能把这个事情跑起来,没那么难。但是在视觉方案这边,视觉初速度很慢。从Mobileye做了25年的视觉方案,就能发现这个事情足够难,这也是MobileyeCEO讲这是他们为什么存在的理由。特斯拉是什么时候?2015年和Mobileye分手后自己开始组团队,自研纯视觉的方案,到今天也有八年多的时间,百度的视觉方案在2019年正式开始进行高强度尝试,当时通过小的项目,在ApolloLite上做了开始,到和极越合作过程中,已经开始算完成从0到1的进化。加速度和什么相关?在这个大模型时代,OpenAI有很有名的文章,ScalingLawsforNeuralLanguageModels,这里提了一个结论,整个模型的迭代速度跟三件事情相关,模型的参数量、数据的规模、训练算力,这三者相辅相成,决定了模型的质量。论文告诉我们在今天技术时代,我们要把能力上限做上去,迭代的更快,需要关注模型大小,训练的质量,还有超强算力。

模型怎么做大?

上如果一堆小模型都在跑各自任务,不可能把单一模型做特别大,所以我们一定要合并,减少激光雷达的模型,这样就可以给视觉模型多几千万的参数。第二个是数据力量,第三,在有限算力下怎么设计,如果让训练更加充分。这个公式是我们选择纯视觉方案背后的深层逻辑,为了上限更高,迭代更快。

为什么是视觉?

既然说到数据,要关注数据的质量,所有传感器都是每时每刻对环境进行离散采样,这里做了一个对比,第一列是主流的很多城市NOA使用的激光雷达的参数,分辨率、最大帧率两者相乘变成一秒内点频采样数。中间列(SOTA)是没有量产,最近刚刚有宣传的代表,参数是业内最好的,性能最高的激光雷达,它对应的参数是这样的。现在极越上搭载的800万摄像头分辨率、帧率、点频,三者对比大概比例1:8:160,也就是说今天主流NOA是我们1/160,明天最好的激光雷达是我们1/20,这只是可量化的部分。

还有不是那么容易量化的部分,数据里到底蕴含多少信息,可以供算法迭代,左边是激光雷达点云,激光雷达返回几何信息,另外更重要是Appearance-纹理,这是图像提供的。右图(PPT所示)随便找一个路口看一张图像,左边是对应的激光雷达扫下来的点云。如果看这个图像,这个信息实在太多了,首先大概能知道这里有两条路,在中间有斑马线,这里有红绿灯,面向我们这个朝向是红的,面向行人是绿色的,还有不一样的行人,右边有一个男生,想过马路,担心有闯红灯,朝我们看了一眼,过程中放慢脚步,很快通过了,左边有一个拿箱子的男士,这个箱子到底是不是静止的障碍物,还是会跟着这个人一起走,不看图像是不知道的。有一个女生站的很笔直,她是过马路还是等,是在准备过马路还是等过去后再过马路。如果从这个图看,大肯定知道她是要过的,因为她这边是绿色的,而且已经走到马路中间,后面还有摩托驮着一个行人,这是一个物体还是两个物体,通过图像,大能有更好的解读的能力。看点云,我们知道有一堆障碍物在路上,不能碰他,我们减速,等它过去,这个也能走,大可以想象二者的上限和智能性的差异化是什么。从绝对的数量再到点云,从不太容易量化的信息来看,视觉的信息量数据的境况远远大于激光雷达的。

再谈谈加速度。做视觉不会那么快,比较难,在这张图里,刚才我解读了很多,有一个问题,对机器来说非常难,这是计算机视觉几十年的难题,在我们这张图像成图的过程中已经把三维做了有损投影,把三维世界压到二维平面上,这是成像的过程。无人最重要第一步在三维环境里规划轨迹,怎么从二维图像里把三维的信息找出来,这就是计算机视觉几十年的难题,二维到三维的挑战。

如果有三维物体,看一下这个物体上面任何一个点,投在图像上某个位置,这是非常容易的事情,高中生都能做的数学公式来计算它。反过来,如果不告诉你这个物体在哪里,只有一张图像和一个像素,我问你,这个像素在空间中的什么位置,这就属于病态问题或者ill-posed问题。我可以在空间中任意一个移动物体上,把这个物体投到对应的图像位置上,等于我们有三个未知数要求,但是只有两个方程,大都不知道怎么做这个事情。

围绕这个难题,我们有三代技术方案,大概代表了整个自动驾驶行业用纯视觉解决自动驾驶三维问题的过程。第一个过程,从2019年开始,意识到激光雷达和视觉放在一起的时候,为什么视觉发展不了?工程师还是会用身体投票,他在巨大业绩压力下会选择做简单的事情,会选择用激光雷达解bug,没有人愿意花这么多精力死磕视觉方案。当时我们做了一个决定,把激光雷达拿掉,定了同样的业务目标,让做视觉的算法同学死磕这类问题。当时我们用的方案,左边是多个相机不同视角的输入,每个相机或者几个相机间会分享DNN深度学习的网络,每个网络做的是从单一视角,从二维到三维的恢复,这样的任务。每个网络把它看到东西汇报出来后,首先在时序上对单相机做障碍物的跟踪,是基于规则。再往后还要做一步,把多路相机感知到的东西做拼接,拼到无人统一的坐标系下,不然会有很多重复,无人就没有办法走。这两步后面都是基于规则的,虽然当时的效果还不错,但是调到后面发现很难调,数据能解决的只在第一部分,后面还有很多要依靠假设,依靠多样的参数,依靠经验,依靠专系统调的东西。这个路走不了那么远。

2022年,我们果断的做了一次大的升级,也是用当时比较流行的BEV解决问题,最大的变化把DNN变成Transformer,Transformer和DNN有什么区别?我试图用一个大比较能容易理解的方式来说这个事情,不是DeepLearning(DNN是DeepLearning深度学习的基础模型一)不能做BEV,其实也能做,但是做不到Transformer这么好,Transformer提供了一个能力是学习三维,我们把三维做约定,画一个网格,每个网格能学习到各个图像上怎么样聚合图像上的信息,再把这个信息在三维网格上提取出我们感兴趣的东西。到这一步,我们用Transformer+BEV的方式,左边原来是每一个相机同一时刻的输入,现在每一个时刻都是时序上,从时刻T到T-N倒推,比如N帧,每一刻都是环视一圈数据进来,进到这个网络,基本没有什么规则和后处理,全是端到端直接输出障碍物,并且在结果上增加了除了2D框,我们增加了预测任务,这个框物体未来几秒未来的走向和趋势是什么。这一步升级后,这是1.1SOP版本的方案,整体就非常有信心,可以用纯视觉代替激光雷达做障碍物检测,这个方法上有一定缺陷,少一张视觉拼图,因为它对检测可以用框来表达的东西还是很擅长的,但是有些东西是没有办法用框表达,比如延续很长的栅栏,或者摆放无序的施工的土包、围挡都不太容易用框来表达。要彻底的赶超激光雷达,我们2024年完成第三步升级,这是BEV+OCC+Transformer多任务统一的网络,这个网络跟刚才相比,我们加了3D的Transformer,我们把多个任务放在一块学习,右边除了几何,整个三维世界里的位置、深度、高度信息,还有语义信息,这个东西到底代表什么,是路边遮挡还是辆,我们会自动的把这些几何信息和语义信息聚合在一起,输出三维信息框也好,或者OCC也好。

还有我们在研的功能,下一版希望推上去,整个跟踪和预测都可以通过直接学习来做,包括速度预估,原来还需要做速度差分,几帧间的障碍物,用数学公式算速度,这个速度很难收敛,现在通过大量的数据,可以把速度和未来运动趋势都做学习,第四步还在研,这是我们完整的输出,VisionTakesAII的愿景理念,这基本涵盖所有我们做无人驾驶相关的感知任务,从检测,动态障碍物检测、静态障碍物检测到场景语义理解解读,到时序的跟踪、运动估计,全都可以用这样一套架构做统一,未来迭代速度会更快。

纯视觉方案是不是非常降本的方法?

介绍完这一部分的技术后,第二个问题跟大探讨一下,有很多人问,你们纯视觉方案是不是非常降本的方法,这个问题怎么看?其实不是的,大看到的是上少了几千块钱的BOM成本(如激光雷达等),用户买价格下来了,但是在看不到的背后,是极越和百度做这套纯视觉方案的投入,天平的左边是上传感器的成本,这部分最直接的获益者是极越主可以花更少的钱去体验高阶智驾产品。

大会想图像没有3D,怎么把三维信息学出来,现在激光雷达厂商生产最好的激光雷达我们都搭载到采集上,我通过采集上学2D、3D联合的标注,把激光雷达能力通过这个过程融入到纯视觉系统里。一开始用的是百度Robotaxi超过六千万公里训练的数据,积累的数据,都是全量落盘,各种场景,几十个城市的数据,作为热启动。这么多信息,要训练充分,背后需要很多算力,目前投入到跟极越项目上的卡数超过五千张(A100或A800这样的大算力显卡),每周级别做迭代。

第三点,自动化生产数据,数据不是标注的吗,找人标就行了,到了BEV时代,我们又是时序,又是环视,又是多任务,人已经搞不清楚了,不像当年在2D图像上标框这么简单,人没法搞定,人可以做后续质检,但是整个生产流程是非常复杂的过程,有时候我们看系统觉得,感觉和光刻机的感觉比较像,投入非常大,做产线,把网络需要训练的数据,自动化的生产出来,是很有技术含量的过程,这里我们跟百度内部沟通,内部协同和研究院,用170亿参数的视觉大模型,当然170亿参数用了MOE的架构,训练的时候实际推理时间跟6亿参数模型是一样的,不会花那么久的时间帮我们做辅助标注。另外自动化产线,搭建下来,日均产能可以做到百万帧图像,最后高质量标注数据用于BEV+OCC联合训练的精标数据超过上亿帧,这是大看不见的背后投入。

高精度自动化多任务共享的BEV+OCC训练数据的生成过程,首先我们有采集,采集上搭载了先进的激光雷达以及和极越配置近乎一样或者完全一样的摄像头,上面还有一帧是点云直接采回来,大如果直接看点云,显然不太能用,它还是比较离散,下面是自动化标注出来的供网络学习的真实数据,里面不止有语义,还有结构化信息,以及更重要的是非常准确的像雕刻过一样的3D的感觉,需要用很多步骤,来回用大模型刷,用各种专系统,虽然是离线(没有那么高的实时要求),把专系统做的非常细致,点云采集的,左边灰色的图还是看不清楚的,偶尔看到三辆,但是中间橙色真实数据已经把的形状雕刻的非常精细,这里需要对辆离线进行跟踪,把点云拼接到同一个时刻,让点云的密度增加后,再在空间上做雕刻。这里可以看到雕刻后的,精度已经到厘米级。右边路沿,每个扫过去的时候只能有几个点打在路沿上,非常稀疏。通过后处理以及视觉与大模型的分类,我们已经可以把路沿很精细的刻画出来,在场景里,把高低起伏的地方标注出来。现在3D精度可以做到厘米级,和激光雷达一样,甚至比激光雷达还好一点,分类接近一百类不一样的东西,可以在上面通过视觉大模型打标签,做自动化的分类。整个速度的估计,视频里是连续的视频流,整个辆速度,障碍物运动速度的精度可以做到0.1米/秒的误差,是非常高质量的产线。

媒体:第一个问题,有一个跟机功能相关的点,我那台更新完了,在切换账号的时候,需要在APP上确认,没有直接在机里直接切换账号就行了,这是多余的步骤。此外,QQ音乐播放的时候经常无原因断开,一首歌3分钟的歌有四五次断,播放就断,断了又回来。希望后续进一步优化。

第二个跟智驾相关,请教一下王亮博士,现在极越智驾基础能力,方向盘抖动特别严重,尤其在LCC过程中,它抖动的原因是什么?比如我在开小鹏或者蔚来,在道保持有些偏移的时候会修正回来,在路况非常好的情况下极越方向盘抖动特别严重,把手放在上面一直在抖也不知道它在修正什么?

王亮:这个问题我们意识到了,您体验是不是1.1的版本。

媒体:1.3版本。

潘云鹏:关于方向盘修正问题,1.3.0做了优化,另外方向盘如果是U型方向盘,因为是平的,会加重方向盘左右感受,我们会持续优化,这不是什么太难的事情。关于账号切换的问题,是不是因为网络原因,在高速上?

媒体:不是。不可能在全国各地都有网络,我在上海有,在青岛有,我在黄州有。我那台经常登录自己账号,用几天后,再用,发现它又重新扫账号,退出了。主账号一直没有切换过。

潘云鹏:二位的问题我们记一下,除了网络以外,QQ断流显然是不正常的。

媒体:其次问一下,轻图(音)版本大概在什么时候上?

潘云鹏:轻图刚才已经剧透了,200城,今年肯定会在上半年,争取做一些提前的体验出来。要开200城的话,在未来一到两个季度有比较大的变化。

王亮:200城是年度OKR。

媒体:王亮博士,现在大模型的更新,比如OCC以后对通用障碍物识别肯定更广泛能力更强,现在我们大模型一次更新迭代的节奏是多长?

王亮:我们有预训练的过程,迭代一般可以用新的数据,对问题数据进行小的优化,一般小优化比较快,一周左右,不到一周,很快测试出不同的版本的结果。刷一次大的,大概在一周到两周间,可以把端几千万的参数模型重新刷一遍,这还是比较敏捷,但是模型的刷,要包含线下测试、线上路上识路测试等,我们做的还是比较谨慎一些,担心有离线测不出来的情况。所以大感受上,模型发版没有那么快,这个点是后续我们要进一步探讨的。我们会把模型验证做的更加充分,离线研究做的更充分,能让用户更高频更敏捷感受到大模型的迭代。

媒体:最后一个问题,刚才讲到现在正在开放下一代模型,一直在看特斯拉做,他是把和机器人算法一块做。现在从BEV到Transformer到OCC是行业通识的,下一代在这里面,会不会是研发方向,这里是不是可以把端到端的东西往里做。

王亮:特斯拉内部应该叫V12推送,在北美已经推送给内部员工了,我们看到了视频,有说好,有说不好的,整体是大的趋势。从图像直接到控制,可以看成两个大网络任务,纯视觉,针对感知,检测、跟踪、语义理解、建图在一起,它的变化是不再直接输出人能感觉到的、可视化的障碍物,而是把BEV的特征直接传递到下游决策规划,决策规划也是做成网络直接学好的驾驶员的行为和轨迹。不过这里有大的不确定性。首先需要多少数据,不好回答,网络要变得很大。另外,驾驶还是要保持稳定,网络是不是能保证也是一个问题。特斯拉走的比较靠前,很多做智驾团队也在做尝试、预演,然后像前几年BEV+Transformer一样,各种论文,各种新的点子层出不穷。我们比较坚持能做出来,能落地的功能,我们内部也有这方面的布局,当然什么时间在极越上落地,什么场景释放,还得等一段时间,我们再跟媒体朋友,跟主做交流,大相信,这应该是未来更好的让开的更智能的大方向,这个过程可能也要把整个决策规划进行重构,类似AI原生思维。

媒体:OCC非常大,特斯拉推AEB性能有了很丰富的改进,速度区间,从以前8-150可以支持到5-200,下限5公里,上限200公里,横穿障碍物,在过去用框不那么容易标定的,不知道技术原理的,这些特斯拉明确说了用OCC解决。还有明确说了基于通用障碍物的AEB,也是用OCC实现的。同时,2023年,尤其下半年比较重要的趋势,国内在卷AEB,我们OCC是不是接下来有规划强化极越主动安全能力?

王亮:肯定有的,原来上有很多不同的网络,做不同的任务,AEB有自己的网络,以后趋势一定是,从通用VisionTakesAll的理念上输出,下游各方的应用,都要做,这里不止是感知,把它做出来了,上去了,下面都可以用了,下面还是决策规划等等要做一定适配,特别AEB需要大量测试的,这个是要做,但是有一定排期。特斯拉做的时间比我们长一点,我们还有需要进一步提升的,比如视距提升。OCC在世界坐标系画一个格子,这个格子画多大,分辨率多少,每个格子是1米×1米,还是10厘米×10厘米这个决定你能看多远,做到多精细,这个还有逐步工程化模型调优,整个模型加速的过程,我们会朝这个方向努力。在后面几个版本,你能感受到OCC变化。要做到高速上200公里AEB,首先看得远,这个BEV和OCC都要努力够,做模型优化。BEV的横向障碍物识别,包括自动学习速度预测,应该能给横向AEB受益的。

媒体:高算力训练集群大于五千卡,国内大说的比较具体,是多少EFLOPS(音),极越是多少?

王亮:大可以折算一下,这个不难算,基本是A100、A800高算力的卡。

媒体:去年CVPR上特斯拉简单带了一点点关于世界模型的内容,这可能是在OCC后,下一个比较热的东西,或者反过来说光有OCC不足以支撑智能驾驶,它是一个阶段性的终点。您对世界模型的看法,它有一个比较可供落地的技术路径吗,我们在更长周期里有规划吗?

王亮:关于世界模型,我们暂时没有那么多的精力投入研究它,我大概看了一些,包括百度Apollo内部有偏前瞻研究的部门也在看,我看到新技术很兴奋,但是怎么和自动驾驶很密切的结合,能让用户感受到明显的变化,这个事情我没有看那么清楚。端到端我有一些研究,我会看一下特斯拉,V12多多少少做出来了,这个方向上可落地性,不能说一点问题没有,相信是肯定能做出来的。

媒体:最后关于OCC的问题,有一些会有白名单,可以把视觉用提速解构。极越是没有白名单,还是会有一些东西?你能看到它,或者OCC可以标注出来,但是不确定是好的,你依然分辨不出来是什么样的障碍物,有可能一个塑料袋也是标注出来,我们策略上是有白名单还是没有白名单,所有策略有减速或者绕行。

王亮:我们标了近一百类的东西,这不是只有这一百类,肯定有某一类就叫其他,从OCC设计理念上肯定追求的就是去白名单化,希望可以涌现障碍物识别或者通行空间识别的能力,是它的本质,现在释放的肯定是学的比较充分的,有比较充分的数据积累,会一步步的向用户推送感受。现在虽然模型不是这么设计,但是使用上会有这种感觉,这是跟产品化结合过程中的策略,为了保证大的体验。OCC上并不容易,其实它特别难,因为它时时刻刻都在生效,但是被你碰到解决问题的那个,可能是小概率事件,可能很多人没有遇到过。实时生效副作用是什么?跟AEB比较像,它检测不准,有时候有莫名减速而让用户不爽,所以我们要把这个东西调的特别好,逐步的释放。在很长的分类名单里,你能感受到稳定的障碍物,应该会有逐步爬坡的过程。但它设计初衷不是做白名单,肯定提升对通用的障碍物识别的能力。

媒体:我们看特斯拉自己分享,包括我们跟国内其他品牌交流,大普遍觉得要做OCC需要非常海量数据,我们前面PPT说了,百度Robotaxi本身赋能一部分,我们积累下来的所有Robotaxi积累下来的数据都可以复用吗,如果不是,我们从哪个阶段,我们实现OCC落地不过多的依赖极越队,而是依赖L4事业部数据解决。

王亮:数据从哪儿来?这个事情大如果看百度,是有一定的优势,比如量产极越,可能其他新势力也有。这些数据既可以通过把再武装一些高价传感器来收集,比如激光雷达,也可以攒个队去收集。百度有两个东西是有差异化竞争力的,我们有近千辆的Robotaxi在全国十多个城市运营,每天除了一些时段没有需求不做,其他都在做,这部分搭载比较好的传感器,高精地图等等,它可以贡献数据,而且这个数据不是走流量,有一个比较大的盘,这是我们自己运营的,存储的数据比较全,可以像图书馆一样,你想要什么索引就好了,把它拉出来。另一个差异化是,我们有百度地图,百度地图会往全国各地撒出很多的采集,采集也是有摄像头、激光雷达去制高精地图、SD地图,这个数据跟我们开城层面或者OCC很好的协同。我们跑的城市,地图在几个月前已经跑过一遍,而且这个数据也是全量落得。

媒体:地图采集数也是像图书馆索引一样调取?

王亮:而且比RT覆盖更好,RT是在限定区域跑很久,基本上把区域吃的比较透。地图的跟我们开城是强绑定的,像先头部队一样,基本把每一寸道路丈量后,数据采回来,我们可以用这个数据做我们网络。我们做的算比较快,极越不是第一个做电动,我们不是第一个做智驾产品,我们的速度可以看到,基本做到什么事情说到做到,按时交付、快速迭代,这跟百度自己内部数据储备,自身的优势是有关系的。这四者都有,而且极越的日后会发挥越来越大的作用。百度的特殊辆,包括还会有一些特殊的能力,我们需要在极越上再加装一些很高端的东西,还是用这个逻辑,把高端传感器的能力学到摄像头上,不断的重复这个过程,我们纯视觉能力可以媲美激光雷达,这是我们迟早会做到的一件事情。

媒体:我有一些关于座舱和机、智能驾驶方面的疑问,第一个,文心一言4.0版本上线后,它的交流能力和获取信息能力非常强,它的使用场景仅限在座舱里,它得到的结果能不能和手机APP有更好的连接,比如用户可以通过手机APP看到你跟文心一言交流的内容,包括它帮你解决的问题,可以用回答的方式体现在APP里?

第二个问题,在极越01首发新有补盲功能,补盲功能是开门盲区监测,现在1.3.1上了打灯的盲区,但是盲区画面还是小,它本身来说整个机屏幕是非常大的。

第三个问题,极越01机风格是太冷了,太像机器人了,百度地图是有很多好玩的功能,有很多语音包,还有其他百度功能特有的,这个功能能不能上线到极越01上。这个应该是吉利系造问题,电门总感觉有延迟。单踏板高电量和低电量下的标定不统一。

极越01自动泊做的很牛,为什么在解安全带后会自动停止,甚至它没有更好的提示。

最后一个问题,关于轻图覆盖问题,轻图覆盖需要一段时间,在轻图覆盖前,对于基础LCC的功能上有没有提升?比如很多其他友商做的识别红绿灯、穿过无标签的路口,提升它基础LCC的能力。

王亮:轻图希望下次有分享,刚才还有一个能力没有写,视觉建图能力,我们也会有一版大的迭代,是整个原理上的改变,这个东西上了后,替换掉现在LCC使用的道线检测,轻图做无图红绿灯,这是顺带的,ACC/LCC能力肯定是可以让轻图方案受益的,我们是一套感知的中央的服务,服务各个应用,所以肯定会做。

潘云鹏:现在图做的比较好的百度、高德,在地图这件事情上,轻图挺快的,可能比大想象的快,整个百度地图所覆盖到的轻图制成的范围,比大想象的都要快。

关于盲区画面的问题,1.3.1会变大,我们也意识到它太小,后面会优化,会和你看后视镜的感觉是类似的。

关于文心一言的问题,我们有两个比较大的思考,后面做大模型本地化的支持,这次文心一言原声支持只是起点,代表了我们在座舱的思考,刚才你提到手图上V19开始的大模型的集成,这后面肯定很快,我们毕竟是在基于大模型作为OS去嫁接文心一言、地图,或者别的多媒体应用。我们肯定可以把文心一言数据导出来的。

电门问题,我不是特别专业,我也是遇到充满电后,会更活跃,动力变得更好,相反电力匮乏的时候变得稍微差一点,总体而言这是留给更专业的同事解答。

媒体:第二个问题,去年有一段时间,包括从极越开始,开始说纯视觉路线,但我注意到去年年末今年年初,大又把激光雷达提出来,可能因为去年11月份L3相关规范下发了,现在行业有一种探讨或者说法,如果后面做到L3级别,可能需要用到激光雷达做冗余传感器,我可能要实现特殊路段脱眼脱手,如果做纯视觉OCC路线,这块我们怎么考虑的?还是以后L3标准型也会再加一些不一定是激光雷达,是不是加一些其他的传感器作为冗余?

王亮:传感器分两种,一种是被动光,像摄像头,跟人眼成像原理比较一致。还有主动光,激光雷达,现在还有毫米波能起到主动光测距,作为冗余的作用。我部门是做智驾解决方案,目前还没有收到非常明确的需求,以我目前的认知感觉,现在做的脱手还是要求大关注路况,做到脱眼脱手需要加一定的冗余,这个冗余是什么原理的传感器,还有讨论的空间,但不论什么,视觉是基础,其他不能用的那么重,不然就没有替换的可行性。应该是在很强的视觉能力下,加上主动光传感器是比较好的。

媒体:今年我们看到行业里在提无高清地图的概念,我们试驾很多型,从体验的角度来看,如果是有图,有高清,数据不错的情况下,整体体验是一定会比轻图或无图好,我们要解决泛化问题,大都在走这条路线,我特别好奇,极越,包括百度在地图上有自己的优势,如果你们做轻图,你们会倾向于用什么样的方式?我们知道现在行业有两种方式,一种是通过用户队方式提前对于路线进行先验的方式。还有通过模型的方式,不停的在云端训练路口的模型,看过很多路口,大概这个路口就会走了。我们大概用什么样的路线?还是自己的优势的路线?

王亮:从本质上,像极越这样定位的型企,追求的是最好用户体验的,还是要做到随时随地。现在有一种叫通勤模式。我个人感觉,极越明年可能有一些主流大的城市都会有比较多的店,当然会有用户在没有极越的店的情况下买到,我们也要支持。这是增加用户渗透率的有效方式,这是我们在产品功能上的支持。在技术方案上我们要做到泛化,我们要看过足够多的路口,甚至利用百度地图优势,我们肯定有别人没有的东西,内部给我们的数据和接口,我们会有人无我有的差异化的竞争力,肯定要做到极越铺垫的主流城市里,做到哪里都能用。

潘云鹏:这里涉及到两个不同的方法,我们能够冷启动,基本买到后就能用,因为我们有地图上面的长期的积累,因此在大部分的地区,在主要销售地区都会以这种方式完成这个任务。中国比较大,在一些特别相对而言没有办法覆盖到的场景下,总体而言,我们还是追求冷启动,追求从A点到B点PPA的体验。(编译/姚宇)