毫末智行是长城汽车旗下一家人工智能初创公司,名字取自“合抱之木,生于毫末”,而滋养“毫末”的养料,正是大数据。
清华智能产业研究院(AIR)图灵报告厅,国内自动驾驶初创公司毫末和清华智能产业研究院(AIR)联合召开了一场自动驾驶公开课,而此次课程的重点,可以概括为自动驾驶数据处理的方法论进化。现今最火热的大数据概念非ChatGPT莫属,实际上GPT就是生成式预训练Transformer。毫末认为,大模型首先肯定是Transformer,是一个训练的范式,第二个它的参数量一定要非常大,所以才叫大模型。它的数据量也非常大,具体用什么语料训练的,用在什么行业,用在什么功能上,跟具体的业务相关。在自动驾驶领域,毫末认为整个行业大概分为三个技术演进阶段。第一阶段以硬件方式来驱动,智能驾驶试验车要布上很多激光雷达,整车自动驾驶硬件成本高达上百万。第二阶段,是软件驱动的时代,模型和算法被引入来解决这些问题,不过虽然引入了一些模型,但仍是非常小的模型,而且训练数据也非常少,所以毫末称之为小模型,少数据。第三阶段,则是数据驱动的时代,其与2.0时代的特点差异就是Transformer千亿大模型,而在大参数、大模型和大数据下,算力就成为必要条件。
搞懂自动驾驶大模型概念,可以类比语言大模型发展,其最早在NLP领域出现,模式类似于做词法、句法和语义分析等,通过十几个,甚至几十个模型组合在一起,完成一个质量分析和相关排序的大任务,进而推动搜索、广告、推荐业务。业务背后包含很多模型。年底左右,大模型转向Transformer的另一结构BERT,运作模式类似于完形填空,将中间词抠掉,如果模型预测中间词正确,就证明理解了这句话,理解力自然超过NLP。而到了如今的GPT,就相当于给出一个标题和限定句,让模型自己去写作文,其理解能力明显优于BERT。GPT是更好的,能力更强大的训练范式,但相对来讲训练成本也非常高,要吃大量的数据和算力,甚至有报道称,早期ChatGPT训练一次,成本高达万美元。
回到自动驾驶领域,差不多过去20年时间,基本都在按照与NLP非常接近的方式来做,车上解决一个问题,要先做场景拆分,再识别车道线、障碍物和红绿灯等。就比如识别车道线,要先采集各种各样的车道线数据,再进行人工标注,用标注完成后的数据训练一个模型,这个模型才可以识别各种各样的车道线,最后把模型部署到车上去。很显然车上有很多业务,这就会部署很多模型,之后再把模型的结果全部拿出来做一个融合,结合业务的规则,去控制这个车,可以看得出来,这个模式跟NLP基本上是一样。现在自动驾驶也遇到了NLP一样的困境,就是车卖到全国后,覆盖各种各样路况,用户回馈一个case,再向之前一样,根据这个特点寻找一个场景,基于这个场景采集数据,标数据,去解决这个场景的问题,再把这个场景的模型下载到车上,这个过程非常漫长,整个开发的流程大概几个月到一年。
而且,即使有这么做的打算,我们会发现,各种场景非常之多,根本建设不完,甚至有些场景,根本采不到数据。例如,我们能够识别货车,并标注了各种各样的货车,小货车、大货车、商用货车都可以识别,但是货车上运了一个东西,就对识别的准确率有非常大的影响,运的东西小还好,如果运了一棵树,把这个车完全盖住了,摄像头照过去,就是一个叶子,没法识别的载树货车,就是我们常说的cornercase。这时大数据和大模型就成了解题之选,大模型有泛化能力,可以覆盖全国各地、各种各样的视频,采集这些视频之后,大模型有希望从海量的图片里面自动地学会什么叫做货车、货车运了各种各样的货车也叫货车,即使把车斗盖住了也是货车。从这个去年发布的AI发布的框架图我们可以看到,毫末已经在用5个大模型惊醒场景覆盖和训练。
这其中,第一个是视觉自监督,目的在于取代我们的眼睛,众所周知我们人看东西的时候,看完了我就知道,这是什么,例如前面看到一个东西叫电驴子,中间是一个行人,那边是一个红绿灯,这些都是基于图片的纹理识别的,在视觉大模型化后,就通过识别图片纹理,识别这个图片里这些东西是什么,并进行标注。第二个是多模态的互监督大模型,而这是受特斯的拉占据网络的启发。目前智能驾驶车上多了配备激光雷达,激光雷达扫过之后,并不是像图片那样获得清晰的物品照片,而是一个轮廓的空间点云,一般只能知道空间上有一个东西。而把激光雷达作为监督信号,希望我们摄像头和视觉系统能够学习到空间被占用的信号,就相当于一个标注员,并进行学习,这样的话,未来在车上就不需要激光雷达了,能够大幅度降低自动驾驶硬件成本。除了正常的数据使用之外,整个空间也在试着被重建出来,我们人类开车时,收集的是三维立体信息,不是平面二维图片,所以可以判断障碍物离我有多远,朝我们的角度是怎样的,它的速度是怎样的。三维重建完后,这个虚拟三维空间里有一个好处,就是可以对虚拟空间进行更多的编辑和生成,比如说我们在虚拟空间里面,可以加上各种各样的东西,做各种各样的调整,就类似于打游戏,给未来数据带来很大的好处。但毫末认为这个规划还是保守了,毫末如今的设计是把五个大模型整合到一起,变成一个端到端的大模型。这样处理后好处是,在清理了输入冗余后,训练数据量下降,训练成本会大幅降低。
另外,大模型跟车端配合也在优化,回到大货车载树的case,有了大模型之后,云端库里有百亿图片,通过多模态的大模型,能够直接标注运树的货车,这样就可以几秒内找出图库里面所有跟运了树的货车,大幅度提升数据筛选能力,进而再训练、反馈回车端。其实可以看出,融合一个端到端的大模型,首要处理的问题是数据的快速标注。过去,在多个摄像头、多个视频片段和激光雷达的复杂环境下标注,涉及上千张图片,包括点云,成本非常高,高达几千元,标注clips是不划算的,大模型可以来解决标注的问题。大模型具体在做的事情,是对图片的纹理做一些识别,识别之后我们可以对这个图片中各种各样的东西做标注,包括车道线、行人和障碍物做对比。大模型做标注和人工做标注的差异在于,可以进行定向的修改,例如可以修改红绿灯,生成黄灯,避免之前采集数据中出现的绿灯和红灯比较多,但黄灯偏少的不正常现象。
当然,数据标注改正和空间重构只是数据驱动的时代下的策略调整之一,端到端大模型的建立也不是一朝一夕之举,但方向无疑是光明的,数据已经是科技和经济发展的关键因素,毫末也将在这条路途上前行下去,正在考虑于明年赴港上市,集资3亿至4亿美元,为大数据跑马圈地时代募集粮草。
本文作者为踢车帮孙小树