2025年,自動駕駛將迎來ChatGPT時刻
什么是ChatGPT時刻?我們認為它不光是整個的性能,最關(guān)鍵的是產(chǎn)品的體驗,是產(chǎn)品的可用性與好用性。目前我們看到當下的城區(qū)NOA大部分還處于可用階段,還沒有達到好用的階段。主要的問題還是在于:
1.慫通行效率低,體驗接管
2.莽行為不擬人,安全接管
3.急快速開城導(dǎo)致可用性下降,通過率低
真正“好用”的智駕2.0的系統(tǒng),要提供擬人化的智駕體驗
地平線認為,真正“好用”的智駕2.0的系統(tǒng),要提供擬人化的智駕體驗,不僅僅要保障我們的物理安全,更重要的是心理安全。用戶亟需好用的城區(qū)NOA
2.0系統(tǒng),需要實現(xiàn)通行效率、駕駛擬人、場景通過率的全面突破。
再進一步,要打造用戶愛用的智駕系統(tǒng)3.0,普惠每個人,讓智駕飛入尋常百姓家,陪伴用戶每刻、每程。
智駕系統(tǒng)要做到“好用”,要解決“Scale Out”和“Scale Up”難題
要解決“好用”的問題,我們認為首先要解決自動駕駛的scale up和scale out的難題。所謂scale
up,在特定、固定、受控的小ODD范圍內(nèi)實現(xiàn)性能最優(yōu),能夠處理很多復(fù)雜的場景。但是在廣泛的場景應(yīng)用里面,系統(tǒng)性能卻無法保持,出現(xiàn)我們講的慫、魯莽這些行為,使得整個自動駕駛的應(yīng)用還受限于一些相對小的范圍,在大范圍上體驗不好。我們追求的目標,是要實現(xiàn)在一個能夠scale
up更好的上限,同時在所有的地方都能夠開。
要解決這個問題核心的要素就是四個:算法、算力、數(shù)據(jù)、工程能力。算法是決定了整個系統(tǒng)的性能的上限,然后算力和數(shù)據(jù)是決定了技術(shù)迭代速度。工程能力決定了整個量產(chǎn)化的規(guī)模和用戶的體驗。
從規(guī)則驅(qū)動到數(shù)據(jù)驅(qū)動,技術(shù)迭代的“蹺蹺板效應(yīng)”無法全面提升系統(tǒng)能力
算法上,有基于規(guī)則的和數(shù)據(jù)驅(qū)動的兩種開發(fā)范式,也是業(yè)內(nèi)常說的軟件1.0和軟件2.0。軟件1.0基于大量人工規(guī)則,系統(tǒng)上限低,下限可控;軟件2.0,數(shù)據(jù)驅(qū)動的端到端系統(tǒng),實現(xiàn)信息無損傳遞,系統(tǒng)上限高,而下限不可控。
從中,我們發(fā)現(xiàn)當前技術(shù)迭代的“蹺蹺板效應(yīng)”,無論是rule-based,還是數(shù)據(jù)驅(qū)動的端到端系統(tǒng),單一都無法全面提升系統(tǒng)能力,不得不在系統(tǒng)上限的提升和系統(tǒng)下限的保障二者之間做取舍。
地平線采用端到端與交互博弈,實現(xiàn)“Scale Out”和“Scale Up”的最優(yōu)解
在感知端,地平線采用“三網(wǎng)合一”端到端,能夠把傳感器信息、包括地圖、導(dǎo)航信息都作為一個輸入源輸入到一個模型中進行訓(xùn)練推理。同時,基于感知端到端的優(yōu)勢,不僅可以輸出動靜態(tài)目標信息,還能輸出高維特征級信息,實現(xiàn)信息的無損傳遞,從而提升感知端的系統(tǒng)上限,帶來對于世界的認知能力和系統(tǒng)性能的全面提升。接著無損信息輸入到下游的規(guī)控,規(guī)控里面有基于神經(jīng)網(wǎng)絡(luò)的模塊,也有少量基于規(guī)則的部分做安全兜底,既能提升系統(tǒng)上限,也能確保系統(tǒng)下限。整個系統(tǒng)基于動靜態(tài)推理與數(shù)據(jù)訓(xùn)練,實現(xiàn)場景認知與理解,提升場景泛化能力,從而實現(xiàn)全域可開。
地平線2016年提出的“智能計算的新摩爾定律”,為智能芯片設(shè)計與性能提升指明方向,定義智能計算最優(yōu)解
地平線很早就意識到,如果能夠把軟件通過硬件實現(xiàn),能夠讓系統(tǒng)性能大大提升,從而能夠讓整體的系統(tǒng)成本大幅降低。所以我們當時提出了智能計算的新摩爾定律。
“新摩爾定律”的公式也很簡單,是一個簡單的乘法。把單位成本下的計算性能作為目標,把這個目標分解成三個因子:
1.第一個因子就是大家耳熟能詳?shù)腡OPS per
dollar,花每塊錢能買多少算力,這是經(jīng)典的理論峰值計算效率,通常來講要靠兩件事情來做到,第一個就是摩爾定律,第二就是創(chuàng)新型的硬件架構(gòu)設(shè)計
2.第二個指標是叫Utilization
rate(有效利用率),有了計算資源,怎么樣充分利用?涉及到編譯器、Runtime、中間件、操作系統(tǒng)的優(yōu)化,軟硬件協(xié)同,充分提升計算利用率
3.算法效率。每TOPS算力上能實現(xiàn)的算法效率。
地平線“三項全能”——在硬件的架構(gòu)、軟件中間層的優(yōu)化、算法的創(chuàng)新上,軟硬協(xié)同,極致優(yōu)化,永遠以更低的成本去獲得更高的計算性能。
BPU歷經(jīng)三代迭代,隨著自動駕駛的技術(shù)演進而持續(xù)進化
基于對算法趨勢與應(yīng)用場景的前瞻判斷,BPU為行業(yè)領(lǐng)先的主流算法設(shè)計,最大化能效、算法性能、靈活性。
? 伯努利架構(gòu)實現(xiàn)從浮點到定點計算的演進,面向ADAS場景,實現(xiàn)高性能低功耗的感知計算;
? 貝葉斯架構(gòu)實現(xiàn)從感知到預(yù)測的支持,面向高速NOA,實現(xiàn)感知到預(yù)測的高效計算;
? 納什架構(gòu)實現(xiàn)從感知、預(yù)測到?jīng)Q策的支持,面向全場景NOA,高效支持交互式博弈。
軟硬結(jié)合,超越摩爾定律
從最新一代納什回顧第一代BPU架構(gòu)伯努利,在過去六年的時間里面,BPU整個計算性能提升了246倍,對于Transformer提升的性能超過了27倍。
在同一個時期如果對比摩爾定律18個月提升一倍的情況,它六年時間一共提升了16倍,實際上我們通過軟件和硬件的優(yōu)化,遠超摩爾定律提升的速度。
地平線用軟硬結(jié)合技術(shù),推動智駕“好用”更“愛用”
首先第一,我們要讓駕駛的行為Human-like(擬人化),這個技術(shù)典型就是通過端到端,深度學(xué)習(xí)人類駕駛行為。
進一步我們要推動自動駕駛不僅僅在簡單的case里面能絲滑地處理問題,它更要能在復(fù)雜的case里面,通過自己的思考去舉一反三地處理極限場景,應(yīng)對客觀世界的復(fù)雜性。這就能進一步推動整個智能駕駛從擬人化到anytime、anywhere,就是“每刻”“每程”。這需要交互博弈技術(shù),更復(fù)雜的一種決策行為。
另外,到達“愛用”,整個系統(tǒng)必須成本可控,讓每個人都可以享受到。地平線提供的解法就是要通過軟件、硬件的聯(lián)合優(yōu)化,讓整個系統(tǒng)成本不斷降低,這就是地平線一直在做的BPU計算架構(gòu)。
Horizon SuperDrive??—— 全場景智駕解決方案樣板間
地平線希望在我們的軟件、算法研究還有先進的芯片基礎(chǔ)上打造一個“樣板間”,用先進技術(shù)打造“優(yōu)雅從容”的擬人化系統(tǒng),實現(xiàn)全場景無差別的高階智駕。
基于領(lǐng)先的軟硬件產(chǎn)品和技術(shù),地平線達成的商業(yè)成果
1.地平線是首家且每年均為最大的提供前裝量產(chǎn)ADAS和AD解決方案的中國公司
2.前十大中國OEM均為我們的客戶
3.目前已經(jīng)累計500萬片芯片出貨,累計斬獲230余個量產(chǎn)定點車型,有超過110款車型實現(xiàn)了量產(chǎn),推向了消費者,行駛在中國的大地上,并且已經(jīng)安全陪伴用戶行駛了百億公里里程。
地平線總裁陳黎明博士
——陳黎明博士·演講速記實錄——
尊敬的各位嘉賓、各位業(yè)界同仁,大家上午好!我是地平線陳黎明,今天要給大家匯報的題目是:產(chǎn)研向高而行,解鎖高階智駕新思路。
首先我們來看一下,大家都知道現(xiàn)在正處在新能源汽車下半場,也就是我們講的高階自動駕駛和智能座艙。我們看到目前20萬以上的車NOA的配備率還在不斷的增加,從22年到23年,20到30萬之間的車NOA的裝配率增長了24個百分點,30萬以上的車NOA的裝配率增長了19個百分點。而且今年目前我們看到大概前十個高端車型當中有八款都配備了NOA,所以我們看到高階自動駕駛正在迎來增長的拐點。
另外我們再來看一下關(guān)于行業(yè)里近期熱聊的端到端。大家都知道2022年初的時候openAI的ChatGPT在AlphaGo之后又帶來了很大的驚喜,充分展現(xiàn)了AI的能力和巨大的潛能,今年特斯拉推出了基于端到端大模型的FSD
v12.3,在自動駕駛領(lǐng)域也給我們比較驚艷的亮相,讓我們看到了端到端大模型在自動駕駛應(yīng)用上的潛能,并且開始落地。
我們認為,2025年,自動駕駛將迎來ChatGPT 時刻。
什么是ChatGPT時刻?我們認為它不光是整個的性能,最關(guān)鍵的是產(chǎn)品的體驗,是產(chǎn)品的可用性與好用性。
目前我們看到當下的城區(qū)NOA大部分還處于可用階段,還沒有達到好用的階段。主要的問題還是在于比較“慫”,還有一個問題是比較魯莽,再有一個是通過率比較低。
我們都知道終端用戶需要一個更好用的智能駕駛系統(tǒng)。它應(yīng)該是能夠帶來更加擬人的智駕感受。我們講的智能駕駛1.0“可用”,只是解決了物理安全的問題?!昂糜谩辈坏鉀Q物理安全的問題,還要解決用戶心理安全的問題。所以在實現(xiàn)通行效率、擬人駕駛、場景通過率方面都要進行全面的突破。
當然除了“好用”之外,還要做到"愛用",需要進一步普及到每個用戶,使得每個人都可以用,就是我們講的高階自動駕駛的平權(quán)化。這些思考不僅僅是技術(shù)思維,更多的是產(chǎn)品思維、是用戶價值思維。以用戶價值為先,驅(qū)動我們?nèi)ソ怄i高階智駕新思路。
要解決“好用”的問題,我們認為首先要解決自動駕駛的scale up和scale out的難題。所謂scale
up,在特定、固定、受控的小ODD范圍內(nèi)實現(xiàn)性能最優(yōu),已經(jīng)達到了很高的性能,能夠處理很多復(fù)雜的場景。但是在于廣泛的場景應(yīng)用里面,我們能夠看到性能的上限非常的低,就是剛才我們講的慫、魯莽這些行為。使得整個自動駕駛的應(yīng)用還受限于一些相對小的范圍,在大范圍上體驗不好。
我們追求的目標是要實現(xiàn)在一個能夠scale up更好的上限,同時在所有的地方都能夠開。
要解決這個問題核心的要素就是四個:算法、算力、數(shù)據(jù)、工程能力。算法是決定了整個系統(tǒng)的性能的上限,然后算力和數(shù)據(jù)是決定了技術(shù)迭代速度。工程能力決定了整個量產(chǎn)化的規(guī)模和用戶的體驗。
我們看一下算法方面,目前兩大主要的開發(fā)范式:一個是基于Rule-based,我們講的是Conventional開發(fā)范式,Software
1.0。還有一個基于數(shù)據(jù)驅(qū)動的開發(fā)范式,業(yè)界叫做Software
2.0。兩個各有利弊,軟件1.0基于大量人工規(guī)則,系統(tǒng)上限低,下限可控;軟件2.0,數(shù)據(jù)驅(qū)動的端到端系統(tǒng),實現(xiàn)信息無損傳遞,系統(tǒng)上限高,而下限不可控。所以這里就出現(xiàn)了兩種開發(fā)范式和路徑的“翹翹板”,無論是rule-based,還是數(shù)據(jù)驅(qū)動的端到端系統(tǒng),單一都無法全面提升系統(tǒng)能力,不得不在系統(tǒng)上限的提升和系統(tǒng)下限的保障二者之間做取舍。
對于自動駕駛來說,我們既要能夠有很好的技術(shù)體驗,同時又要非常安全,再加上能夠快速地去推廣應(yīng)用,這是我們的既要又要且要。
從地平線來講,我們認為采用一個端到端和交互博弈的解決方案,能夠比較好地解決scale out和scale
up的難題。我們采用了“三網(wǎng)合一”的端到端大模型,在這個大模型里面它能夠把傳感器的數(shù)據(jù)和地圖和導(dǎo)航信息輸入大模型進行訓(xùn)練。在這個模型里面它通過不丟失信息的情況下對周邊世界進行更好的感知,通過動靜態(tài)的推理還有數(shù)據(jù)的訓(xùn)練,能夠產(chǎn)生出動靜態(tài)目標。除此之外還能夠輸出一個機器能讀懂的高維特征級信息,給到下一個模塊,也就是交互博弈模塊。這個模塊有兩個部分組成:一個是神經(jīng)網(wǎng)絡(luò)的模塊,再一個是基于Rule-based的模塊。神經(jīng)網(wǎng)絡(luò)能夠提高整個系統(tǒng)上限,同時基于Rule-based的模塊可以做好安全兜底,確保系統(tǒng)下限。
通過“三網(wǎng)合一”端到端,再加上交互博弈架構(gòu)和算法,能夠比較好的解決scale out和scale up。
地平線作為一家軟件算法基因出身的公司,我們首先考慮問題還是從軟件的方面考慮怎么解決自動駕駛的問題。在過去九年當中,地平線在創(chuàng)新技術(shù)方面也有很多的積累,在這里給大家做幾個分享。
2022年地平線提出了Sparse4D的架構(gòu),它是行業(yè)比較領(lǐng)先的高性能,高效率,長時序、純稀疏融合感知架構(gòu),它通過長時序純稀疏還有端到端很好解決了之前或者現(xiàn)在用的BEV+Transformer架構(gòu)里面的感知范圍和精度以及與計算效率的矛盾,打造了一個比較好的端到端的感知基座。同時它在各方面的性能表現(xiàn)都遠好于其他的架構(gòu),特別是在nuScenes公開數(shù)據(jù)集排行榜第一。所以它是接棒“BEV+Transformer”的下一代架構(gòu)。通過和BEVFormer的對比,可以看到在夜間城區(qū)密集人群的精準感知、遠距離及時感知的場景下,Sparse4D的感知結(jié)果都更精準。
另外地平線學(xué)者在2022年底的時候發(fā)表了一篇自動駕駛大模型UniAD的文章,也是首次實現(xiàn)了整體框架下的端到端訓(xùn)練。在9000多篇論文里面獲得了去年計算機視覺和模式識別CVPR大會的最佳論文,這也是第一次自動駕駛領(lǐng)域的文章在CVPR年會上獲得最佳論文。
UniAD它首次將檢測、跟蹤、建圖、軌跡預(yù)測、占據(jù)網(wǎng)格預(yù)測以及規(guī)劃整合到一個基于Transformer框架里面的大模型里面,實現(xiàn)感知的一體化,它相對于黑盒的我們講的端到端,它更可控、可解釋、可拓展,是一個比較好的架構(gòu)。它在NuScenes數(shù)據(jù)集上獲得了SOTA
(state of the
art),評測結(jié)果最優(yōu)。同時,我們這個算法也在業(yè)界作為一個Benchmark,當下產(chǎn)業(yè)界的很多端到端都有受UniAD啟發(fā)開啟端到端的上車應(yīng)用,學(xué)術(shù)與科研界也以UniAD作為標桿去benchmark。
除此之外,同時地平線還采用了模仿強化混合學(xué)習(xí)技術(shù),在這方面進行深度創(chuàng)新和積累,使得整個自動駕駛更擬人、更安全。
基于模仿的開環(huán)學(xué)習(xí)方式不能很好的解決長尾問題。交互式的規(guī)控學(xué)習(xí)采用混合強化學(xué)習(xí)方式,一方面通過模仿學(xué)習(xí)提高學(xué)習(xí)效率,另一方面通過閉環(huán)強化學(xué)習(xí)克服模仿學(xué)習(xí)在長尾等方面存在的缺陷,可以很好地解決長尾問題。這樣使得整個交互博弈當中能夠更好的進行跟周邊的交互,同時實現(xiàn)更好的擬人性,整個安全性和舒適度都得到了很大的提升。
那么再好的算法如果沒有相應(yīng)的芯片來承載,實際上是無法變成產(chǎn)品的。所以接下來我就介紹一下地平線在硬件、技術(shù)和產(chǎn)品方面的最新的一些結(jié)果。
這個是地平線2016年提出來一個“智能計算的新摩爾定律”。這個為我們地平線也是為其他行業(yè)的同仁提供了一個芯片設(shè)計和性能提升的方向,定義智能計算最優(yōu)解。新摩爾定律的公式也很簡單,是一個簡單的乘法。就是說我把單位成本下的計算性能作為目標,把這個目標分解成三個因子:
第一個因子就是大家耳熟能詳?shù)腡OPS per
dollar,花每塊錢能買多少算力,這是經(jīng)典的理論峰值計算效率,通常來講要靠兩件事情來做到,第一個就是摩爾定律,第二就是創(chuàng)新型的硬件架構(gòu)設(shè)計;
第二個指標是叫Utilization
rate(有效利用率),有了計算資源,怎么樣充分利用?涉及到編譯器、Runtime等等軟件和硬件的協(xié)同優(yōu)化,充分提升計算利用率;
第三是算法效率。每TOPS算力上能實現(xiàn)的算法效率,這取決于算法先進性來實現(xiàn)計算效率提升。
可以說,地平線“三項全能”——在硬件的架構(gòu)、軟件中間層的優(yōu)化、算法的創(chuàng)新上,都聚焦于軟硬協(xié)同,永遠以更低的成本去獲得更高的計算性能。
前面講了我們在算法上有很多的積累,這些積累就是指導(dǎo)我們?nèi)ピO(shè)計我們的硬件架構(gòu)。
這體現(xiàn)在這幾個方面,一個是通過三級存儲架構(gòu),多脈動的立方加速引擎,還有多項數(shù)據(jù)流動等等來減少核內(nèi)核間以及片間的數(shù)據(jù)的流動,提高它的使用率,同時降低對帶寬的占用。另外通過虛擬化,數(shù)據(jù)變換引擎等等這些,來支持先進的算子和加速計算。同時通過所有這些優(yōu)化,大大降低對計算的功耗,也使得我們整個芯片的性能能夠保持在一個非常好的水平。
軟硬結(jié)合,超越摩爾定律。我們再來看一下“新摩爾定律”帶來性能的提升,左邊是傳統(tǒng)的摩爾定律,在6年可以看到它的性能提升16倍?;谲浻步Y(jié)合的“新摩爾定律”,我們BPU的計算性能對于傳統(tǒng)主流的CNN神經(jīng)網(wǎng)絡(luò)它在6年里面提升了246倍。對于現(xiàn)在的Transformer來講,在三年里面提升了27倍。實際上我們通過軟件和硬件的優(yōu)化,遠超摩爾定律提升的速度。
總結(jié)一下,我們用軟硬結(jié)合的技術(shù)實力推動智能駕駛從“可用”到“好用”最后到“愛用”。最主要的是通過端到端的技術(shù),通過深度學(xué)習(xí)人類的駕駛行為和擬人的體驗帶來心理安全,更加擬人、更像老司機。通過交互博弈,通過舉一反三處理極限的場景,更好的適應(yīng)客觀世界的復(fù)雜性,能夠做到每時每刻。
再就是通過我們產(chǎn)品BPU,我們的芯片,提升它的性能,同時降低成本,來使得我們的高階自動駕駛更快的普及到我們每個駕駛員,使得每個人都可以用得起。
接下來我再把通過我們技術(shù)的積累,最新的產(chǎn)品給大家做一個介紹。今年四月份我們發(fā)布了兩款產(chǎn)品,一個是硬件產(chǎn)品,一個是軟件產(chǎn)品。硬件產(chǎn)品就是征程6系列,相對于之前的三代產(chǎn)品征程2、征程3、征程5都是單芯片,征程6是一個家族,總共有6款芯片,主要覆蓋低中高階智能駕駛應(yīng)用。所以在整個智能駕駛的應(yīng)用當中,總有一款芯片適合我們的合作伙伴,它帶來的好處是基于同樣的開發(fā)環(huán)境、開發(fā)工具鏈能夠大大提升我們合作伙伴的開發(fā)效率,同時降低開發(fā)成本,能夠加速整個自動駕駛的應(yīng)用落地。
再一個我們發(fā)布了第二個產(chǎn)品,我們叫做Horizon
SuperDrive,這個是全場景智能駕駛解決方案,我們希望基于我們的軟件、算法研究還有我們最新芯片的基礎(chǔ)上打造一個“樣板間”,充分展現(xiàn)在技術(shù)上限上,自動駕駛能夠解決什么樣的問題,能夠怎么樣更好的來解決我們目前遇到的很多困難的場景。通過我們?nèi)W(wǎng)合一端到端的技術(shù),還有交互博弈,還有征程6的芯片,我們追求的是像老司機一樣優(yōu)雅和從容的駕駛。它會覆蓋全場景,包括城區(qū)、高速和泊車產(chǎn)品,實現(xiàn)全場景無差別的高階智駕。
下面看一下我們的SuperDrive在復(fù)雜場景里面的表現(xiàn),左上角是交通很擁堵的時候換道,是我們自車和其他汽車的博弈,我們的系統(tǒng)實在過不去會讓一下,如果有縫就會很自信的插進去。
第二個是路口的左轉(zhuǎn)交互博弈,大家可以看到車流量很大,這個場景化左邊的車實際上很多,這個時候要見縫插針能夠轉(zhuǎn)過去,沒有一定的技術(shù)的上限,沒有這種自信,你是沒有辦法在這個情況下進行左轉(zhuǎn)的。
右邊是一個城區(qū),城市里面的一個環(huán)島,這個里面也是非常復(fù)雜的場景,它有反向的車、也有人,有一些場景你是沒有辦法第一時間看到,這個時候需要車跟路上的博弈,跟路邊的行人、車輛等等博弈。
左下是在擁堵路況下,精準搜索匯入空擋,高效安全博弈,成功匯入主路。
右下是禮讓行人,需要比較篤定能夠自信開的時候,它能夠去博弈,需要謙讓的時候必須要禮讓行人和其他的道路的使用者。
目前在過去的九年里面,我們的產(chǎn)品也得到了主機廠的認可,目前我們跟100多個合作伙伴一起服務(wù)20多家主機廠。目前我們有差不多230多個量產(chǎn)開發(fā)項目,有110多款車型已經(jīng)量產(chǎn)。目前我們已經(jīng)出貨了500萬片芯片給客戶,也積累了百億公里的駕駛里程,為客戶提供安全的駕駛體驗。
地平線是堅定的定位Tier2,我們還是希望攜手行業(yè)所有的伙伴一起,來推動自動駕駛向高而行,通過我們的硬件和算法賦能我們的合作伙伴,與我們的合作伙伴一起,共同讓自動駕駛可用、好用,使我們的用戶更愛用。
最后,地平線希望跟我們的合作伙伴一起。征程與共,開放共贏!
我的分享就到這里,謝謝大家!
|