2024年7月11-13日,2024中國汽車論壇在上海嘉定舉辦。本屆論壇以“引領(lǐng)新變革,共贏新未來”為主題,由“閉門峰會、大會論壇、10多場主題論壇、9場重磅發(fā)布、主題參觀活動”等多場會議和若干配套活動構(gòu)成,各場會議圍繞汽車行業(yè)熱點重點話題,探索方向,引領(lǐng)未來。其中,在7月12日下午舉辦的“主題論壇五:高級別自動駕駛加速,驅(qū)動未來出行革新”上,智己汽車
L4 自動駕駛項目總工程師、賽可智能CTO于乾坤發(fā)表精彩演講。以下內(nèi)容為現(xiàn)場演講實錄:
各位領(lǐng)導(dǎo),各位專家,各位朋友、同仁們,大家好!
首先介紹一下公司的情況。我們是上汽賽可智能,也叫上汽AI
LAB,現(xiàn)在跟智己汽車一體化緊密合作,主要是負責(zé)集團的L3、L4級的戰(zhàn)略的落地和執(zhí)行。2021年年中開始,主要負責(zé)集團Robotaxi的項目,目前已經(jīng)完成了兩代Robotaxi的研發(fā)和落地,剛剛在吳總PPT上也看到我們的車。從開始1.0的版本是2012年頂著非常高的機械式激光雷達,2022年把現(xiàn)在量產(chǎn)車比較常用的固態(tài)激光雷達率先用在Robotaxi的車上,然后提出了第二代的Robotaxi的方案。目前我們正在和智己汽車一起打造第三代Robotaxi的技術(shù)方案,目前還沒有公布外形,但是整個的外觀更加的漂亮,而且完全面向量產(chǎn)化、一體化進行設(shè)計。整體而言,將會是另外一個比較驚艷的產(chǎn)品。
除了L4自動駕駛,我們在L3自動駕駛也取得一些成績,去年年中,我們把L4上面的一些技術(shù)降維應(yīng)用在L3上面,參加了工信部首批的L3試點準(zhǔn)入的申報。今年4月份的時候,工信部公布首批乘用車試點企業(yè),一共是7家乘用車和2家商用車,我們是其中7家乘用車之一。接下來我們也在籌劃將L3技術(shù)導(dǎo)入到真正的量產(chǎn)車上,敬請大家期待。
接下來從三個方面來談一下對于自動駕駛的認識。
一、自動駕駛的技術(shù)演進。
技術(shù)演進離不開特斯拉的技術(shù)路線,特斯拉的技術(shù)演進的方案列出來,可以清晰看出它的脈絡(luò)。
從剛開始的2016年之前以Mobileye作為主要的供應(yīng)商來做,采用賦能的一種研發(fā)的方式。2016年之后采用基于英偉達的硬件自己在上面開發(fā)了一些軟件,這叫智駕1.0的方案,通俗來講是,感知采用一些數(shù)據(jù)驅(qū)動的方案,但是下游的定位、規(guī)控等還是采用規(guī)則化的方法來做的。
2021年隨著HW3.0發(fā)布,它在自己的FSD的芯片上放置了BEV
transformer網(wǎng)絡(luò)架構(gòu),把感知的上游,從傳感器的輸入一口氣做到預(yù)測階段,同時也在規(guī)控上引入初步的半數(shù)據(jù)驅(qū)動的策略。
2023年初開始,號稱是采用了完全端到端的V12版本,引發(fā)了業(yè)界引發(fā)廣泛的討論。它的推出,用馬斯克的話是從30萬行代碼下降到幾千行,整個的開發(fā)復(fù)雜度大大下降。
這是特斯拉的自動駕駛技術(shù)的演進。
這是他2022年所公布的2.0方案的多階段獨立數(shù)據(jù)驅(qū)動的一套方案。整體來說在整個規(guī)則方法的框架下,提出如何以端到端數(shù)據(jù)驅(qū)動來替代。
我們拿出了兩個版本的對比。左邊是V11版本最好的結(jié)果,右邊是V12版本的結(jié)果,為什么放這兩張圖?想跟大家一起分析一下它的技術(shù)架構(gòu)。
左邊圖片和右邊的圖片都是在儀表盤上的結(jié)果,一是我們可以非常清晰地看到周圍的車、人的位置。試想,如果采用全端到端的數(shù)據(jù)驅(qū)動,在AI模型的不可解釋的情況下,原則上中間結(jié)果不太可能輸出一個讓人看、感覺比較好的一個結(jié)果。我們推測,它的端到端的自動駕駛的方案的重點還是在預(yù)測規(guī)控上,把感知端的一些結(jié)果以某種形式,比如說傳遞一些特征層,傳遞一些感知結(jié)果,通過解碼器輸出一組較好的軌跡。
另外一個是發(fā)現(xiàn)在儀表盤上,即便看不到前面有一個錐筒,也就是感知漏檢了,但是有時候車仍然可以繞開,這個其實也可以給我們提出新的啟發(fā):感知并不只是把結(jié)果輸出給下游,而是把中間的各種Feature輸出給下游。這就是我們所說的神經(jīng)網(wǎng)絡(luò)里面?zhèn)鞑サ囊恍┤祟悷o法理解的一些向量信息給到了下游,而在儀表盤上演示不出來。這是我們對他整個技術(shù)方案的推測。
在這樣一套框架下,左邊(圖)展示的是規(guī)控結(jié)果的對比,可以看出同樣一個場景在停車場內(nèi)偶遇左前方的來車,可以看出左邊的車規(guī)劃的軌跡比較長,而且每兩幀之間的軌跡之間跳動是比較大的,這就說明采用了一種基于采樣的規(guī)則的方法。右邊(圖)軌跡比較短,這是我們發(fā)現(xiàn)的一個比較有意思的結(jié)果。
因此,我們對整個自動駕駛的自己演進劃分為三個階段:
第一個階段,只有感知做數(shù)據(jù)驅(qū)動。比較常見的做法是拿Mobileye的感知配一個規(guī)控,然后兩家獨立來做,這是主機廠最喜歡的做法,甚至硬件再給到另外一家,便于把控供應(yīng)商。
第二個階段,從2021年開始,隨著BEV技術(shù)的演進,尤其是高級別智駕不斷地落地部署,提供自動駕駛的全棧解決方案的廠商越來越多,按照傳統(tǒng)的做法,把感知給一家,規(guī)控給一家,再把它們集成在一起的做法,往往起不到很好的效果。在高級別智駕NOA開發(fā)上,高速高架NOA、城區(qū)NOA,其實這個上面開發(fā)的時候吃了很多苦頭。
第三個階段,2023年之后隨著端到端大模型的應(yīng)用,尤其是自動駕駛的應(yīng)用,相當(dāng)于引領(lǐng)行業(yè)的風(fēng)潮。昨天小鵬汽車提出,建議現(xiàn)在大家果斷地轉(zhuǎn)端到端,不要有任何的猶豫,也是這么一個看法?,F(xiàn)在整個行業(yè)對自動駕駛的未來技術(shù)路線的看法比較一致,那怎么做呢?端到端模型的智駕應(yīng)用,我們把它分為兩個階段:
第一個階段是two-model的方案,分成兩個大的模塊分別做端到端。第一個端到端比較好理解,從傳感器一直到預(yù)測軌跡輸出。第二個(端到端)是從感知結(jié)果,有可能從預(yù)測結(jié)果到軌跡生成,成為two-model的方案,這是目前業(yè)界用得比較主流的一個方向。
第二個階段是一把到位的方案,two-model的方案因為中間存在顯式的輸出,必然會存在一些信息的損失,很難充分地利用好傳感器的信息,所以one
model的方案有很多人做前期的研究,這個也是一個跟AGI更加接近的一個方向,但是這個研發(fā)的難度也是比較高的,我們預(yù)估要到3-5年之后才會得到一些規(guī)模化的應(yīng)用。
二、端到端工程化的挑戰(zhàn)。
在端到端自動駕駛的方案工程上會面臨哪些挑戰(zhàn)?
重點說一下大家普遍采用的two-model的端到端技術(shù)路線。感知部分也沒有什么可說的,有監(jiān)督的訓(xùn)練,BEV
transformer大家已經(jīng)做了很多,只不過加一個head,一步輸出到預(yù)測結(jié)果。
因此,整個技術(shù)架構(gòu)的關(guān)鍵在于你的決策規(guī)劃模塊能不能從傳統(tǒng)的規(guī)則體系升級到端到端的數(shù)據(jù)驅(qū)動的體系。我們現(xiàn)在在做傳統(tǒng)方案的時候,從感知、定位、預(yù)測、規(guī)控分為不同的模塊,預(yù)測部分是離決策規(guī)劃最近,最常見的端到端預(yù)測規(guī)控的做法是以預(yù)測的模型為基礎(chǔ),除了輸出他車的運動軌跡之外,還要輸出自車的一組運動軌跡。數(shù)據(jù)來源也很簡單,就是人類駕駛員的數(shù)據(jù),這是大家比較樸素的一個想法。
我們在下面畫了一個大概的流程圖,簡要描述了端到端預(yù)測規(guī)控的做法。從感知模型,除了輸出感知結(jié)果之外,還要把feather傳遞給下游,在預(yù)測模型之外再輸出一些planning的一些軌跡。
對于這一套預(yù)測規(guī)控的端到端決策規(guī)劃模型而言,一般認為輸入會有五個方面的信息:
1、其他交通參與者的歷史軌跡信息。
2、一定范圍內(nèi)的地圖信息或者地面標(biāo)識信息。
3、導(dǎo)航信息。因為要知道接下來下一個路口要不要左轉(zhuǎn)或者右轉(zhuǎn)。
4、路口的紅綠燈信息。
5、自車歷史的運動軌跡。
這個也是按照第一性原理所做的,輸出是除了輸出自車的運動軌跡之外,我們認為還要輸出其他交通參與者的預(yù)測軌跡。輸出這個的目的也很簡單,我們認為在端到端模型上車之后,規(guī)則方法仍然會有它存在的一個必要性。因為神經(jīng)網(wǎng)絡(luò)的輸出具有一定的概率性,并不能保證結(jié)果一定是非常安全,沒有什么問題的。所以我們還是要通過一些規(guī)則方法對神經(jīng)網(wǎng)絡(luò)的輸出做一個二次的校驗,這是端到端決策規(guī)劃模型還是要輸出預(yù)測結(jié)果的很重要的原因。
工程上面臨哪些挑戰(zhàn)?
第一,數(shù)據(jù)采集的完備性。
現(xiàn)在生產(chǎn)一款車,往往配置會有高低配,一般情況下攝像頭配備比較全面的,11個攝像頭+激光雷達,往往是這個車型的旗艦款,銷量不會太大,走量的主要還是低配車型,把激光雷達什么都給干掉了,通常的做法是2R1V或者1R1V之類的傳統(tǒng)L1、L2的功能。它的數(shù)據(jù)是有一定問題的。比如說你要做端到端模型,某一個路口要換道,你不可能不看后面的車流的情況,這個時候低配車型的數(shù)據(jù)直白地講,對整體的端到端的預(yù)測規(guī)劃,決策規(guī)劃而言是沒有什么用的,這也是數(shù)據(jù)采集的完備性的第一個挑戰(zhàn)。
另外一個挑戰(zhàn)是導(dǎo)航信息難以獲取。現(xiàn)在錄制一個數(shù)據(jù)包的長度往往是20-30秒甚至更多的35秒,但是有時候,如果是人類駕駛員開車,數(shù)據(jù)錄制時間太短,并不知道接下來的路口左轉(zhuǎn)還是右轉(zhuǎn),還是直行,它有時候會做出變道的決策,就非常迷惑性了,這個信息是不可或缺的,但是從僅有二三十秒的數(shù)據(jù)中,獲取到導(dǎo)航的意圖是很難的。
第二,數(shù)據(jù)采集的復(fù)用性。
規(guī)控接收上游的輸出,上游的輸出肯定要穩(wěn)定,但是感知模型存在誤檢、漏檢的可能性很大,信息可能會非常的不準(zhǔn)確。同樣規(guī)控模型在升級的時候,感知也在升級,之前基于老的版本的感知模型做的結(jié)果可能在新的感知模型下表現(xiàn)不一定很好。這個也是一個要解決攻克的點。當(dāng)然,如果采用高精地圖,地面標(biāo)識的變化受到影響就比較小了。
還有一個比較關(guān)鍵的點,就是不同的車型之間的問題。剛剛說到高配車型本來就少,我用它數(shù)據(jù)的時候應(yīng)該用越來越多的車型,肯定對我更好。但是不同的車型,它的軸距、載荷,甚至輪胎的磨損程度都是不一樣的。這個時候繞行同樣一個錐筒,哪怕是以同樣的方向盤角度繞行,它對應(yīng)的軌跡可能是千差萬別,甚至差異特別大。這個時候怎么樣將不同車型的數(shù)據(jù)統(tǒng)一到同樣的坐標(biāo)系或者同一個維度下,這個也是我們要攻克的一個數(shù)據(jù)采集復(fù)用性的一個很大的問題。
one-model端到端感知決策模型是一個模型,輸入就是傳感器的原始數(shù)據(jù),輸出是運動軌跡。它的主要難點是在算力和數(shù)據(jù)上,它對數(shù)據(jù)的需求量更大,需要收集原始的數(shù)據(jù),基本上一個數(shù)據(jù)包比較大,對車端流量的要求非常高。另外對算力的要求。像特斯拉的規(guī)劃是上百EFLOPS,國內(nèi)規(guī)劃比較多的像華為是3.5EFLOPS,后面都是一點幾,可以說是海外的零頭的零頭,這個也是我們行業(yè)內(nèi)的一個困頓的地方。
one-model的方案訓(xùn)練難度比較大,算力需求比較高。two-model相對訓(xùn)練精度比較小,在當(dāng)前資源有限,尤其是高端的顯卡被限制的情況下,大家的突破除了two-model也沒有什么可選。
我們實踐的情況也是采用two-model的架構(gòu),分為感知和預(yù)決策兩個模型,以BEV
modle作為感知核心的一個框架,再輸入下游的預(yù)測規(guī)控的模塊。
三、上汽L3/L4的端到端的實踐
目前來說,我們現(xiàn)在已經(jīng)完成了在非路口場景內(nèi)的端到端的數(shù)據(jù)驅(qū)動的開發(fā)和壓力測試。主要數(shù)據(jù)來源一個是仿真的數(shù)據(jù),一個是實際路測的數(shù)據(jù)。之所以從這樣一個場景開始出發(fā)去做,其實主要就是它的數(shù)據(jù)量比較好收集,比較大。目前來說已經(jīng)在測試端已經(jīng)完成對傳統(tǒng)方法的PK,整體的效果表現(xiàn)不輸于它。
講這個也是重點show這樣一個效果。我們之前收集非路口場景的數(shù)據(jù)時,并沒有針對性的收集換道超車類的場景,但是我們發(fā)現(xiàn),紅線就是端到端的輸出,綠線是傳統(tǒng)方法的輸出??梢钥闯?,紅線很明顯具備一定的換道超車的能力。這是讓我們比較驚訝的地方:雖然我們并沒有針對性收集這些數(shù)據(jù),但是模型反而具備了這樣一個能力。這個其實是我們所謂端到端的方法,通過數(shù)據(jù)驅(qū)動的辦法去解決這些corner
case的一個比較有價值的地方。
對一些路口交互場景,我們也針對性的做了一些,發(fā)現(xiàn)模型可以比規(guī)則、方法更靈活地處理這種橫向避讓。
以上就是我這次分享的一個情況。謝謝!
|