欧美一区视频在线-欧美一区在线观看视频-欧美伊人-欧美伊人久久-黄色大片在线播放-黄色大片一级

首頁(yè) > 汽車活動(dòng) > 汽車活動(dòng) > 解讀毫末技術(shù)論文Cam4DOcc:僅使用攝像頭可實(shí)現(xiàn)4D占據(jù)預(yù)測(cè)?

解讀毫末技術(shù)論文Cam4DOcc:僅使用攝像頭可實(shí)現(xiàn)4D占據(jù)預(yù)測(cè)?

發(fā)布時(shí)間:2024-04-08 21:11:01來(lái)源: 15210273549

為了確保自動(dòng)駕駛汽車在行駛中能夠安全、可靠地執(zhí)行任務(wù),了解周圍環(huán)境的變化至關(guān)重要。近年來(lái),一些技術(shù)能夠通過(guò)分析攝像機(jī)圖像來(lái)估計(jì)周圍物體的位置和分布,這對(duì)于理解大規(guī)模場(chǎng)景的結(jié)構(gòu)非常有幫助。

然而,這些技術(shù)主要關(guān)注的是當(dāng)前的3D空間,對(duì)于未來(lái)物體可能的位置和狀態(tài)并沒(méi)有太多考慮。

為了解決這個(gè)問(wèn)題,最近,毫末智行聯(lián)合上海交大、國(guó)防科大、北京理工大學(xué)提出了一種新的方法,叫做Cam4DOcc。

這是一個(gè)專門為僅使用攝像頭進(jìn)行4D占用預(yù)測(cè)而設(shè)計(jì)的基準(zhǔn)測(cè)試,用于評(píng)估未來(lái)一段時(shí)間內(nèi)周圍場(chǎng)景的變化。

Cam4DOcc基準(zhǔn)測(cè)試的目標(biāo)是使用攝像頭圖像作為輸入,預(yù)測(cè)當(dāng)前和未來(lái)短時(shí)間內(nèi)(通常是幾秒內(nèi))的3D空間占用狀態(tài)。

包括對(duì)一般可移動(dòng)物體(GMO)和一般靜態(tài)物體(GSO)的占用狀態(tài)進(jìn)行預(yù)測(cè)。預(yù)測(cè)任務(wù)又分為多個(gè)級(jí)別,從預(yù)測(cè)膨脹的GMO到預(yù)測(cè)精細(xì)的GMO、GSO和自由空間。

Cam4DOcc基準(zhǔn)測(cè)試為自動(dòng)駕駛中的4D占用預(yù)測(cè)提供了一個(gè)標(biāo)準(zhǔn)化的評(píng)估平臺(tái),使研究人員能夠比較不同算法的性能。通過(guò)這些測(cè)試,研究人員可以更好地理解和改進(jìn)自動(dòng)駕駛系統(tǒng)在理解和預(yù)測(cè)周圍環(huán)境方面的能力。

毫末預(yù)測(cè),自動(dòng)駕駛領(lǐng)域中下一個(gè)重要的挑戰(zhàn)將是僅使用攝像頭進(jìn)行4D占據(jù)預(yù)測(cè)。這項(xiàng)技術(shù)不僅可以通過(guò)攝像頭圖像擴(kuò)展時(shí)間上的占據(jù)預(yù)測(cè),還要在BEV格式和預(yù)定義類別之外拓展語(yǔ)義/實(shí)例預(yù)測(cè)。

該論文的主要核心貢獻(xiàn)包括:

提出了Cam4DOcc基準(zhǔn),這是第一個(gè)促進(jìn)基于攝像頭的4D占用預(yù)測(cè)未來(lái)工作的基準(zhǔn)。

通過(guò)利用現(xiàn)有數(shù)據(jù)集,提出了自動(dòng)駕駛場(chǎng)景中預(yù)測(cè)任務(wù)的新數(shù)據(jù)集格式。

提供了四種新穎的基于攝像頭的4D占用預(yù)測(cè)基線方法,其中三種是現(xiàn)成方法的擴(kuò)展。

還引入了一個(gè)新穎的端到端4D占用預(yù)測(cè)網(wǎng)絡(luò),展示了強(qiáng)大的性能,為研究者提供了有價(jià)值的參考。

論文引入了標(biāo)準(zhǔn)化評(píng)估協(xié)議,并通過(guò)Cam4DOcc基于該協(xié)議進(jìn)行了全面的實(shí)驗(yàn)和詳細(xì)的分析。

下面我們來(lái)詳細(xì)剖析這篇論文。

01.

解鎖自動(dòng)駕駛時(shí)空預(yù)測(cè)的超能力

該論文首先提出了一個(gè)新的數(shù)據(jù)集格式。

該格式基于現(xiàn)有的數(shù)據(jù)集(包括nuScenes、nuScenes-Occupancy和Lyft-Level5)進(jìn)行了擴(kuò)展和調(diào)整,這樣就可以適應(yīng)4D占用預(yù)測(cè)的需求,這里需求就包括關(guān)于可移動(dòng)和靜態(tài)物體的連續(xù)占用狀態(tài),以及它們的3D向后向心流的信息。

下圖為以原始和Scenes-Occupancy為基礎(chǔ),在Cam4DOcc中構(gòu)建數(shù)據(jù)集的整體流程。

通過(guò)利用現(xiàn)有數(shù)據(jù)集,提出了自動(dòng)駕駛場(chǎng)景中預(yù)測(cè)任務(wù)的新數(shù)據(jù)集格式被重組為一種新穎的格式,既考慮了一般的活動(dòng)類別,也考慮了靜態(tài)類別,用于統(tǒng)一的四維空間占用預(yù)測(cè)任務(wù)。

如下圖所示,論文首先將原始nuScenesnu分割成時(shí)間長(zhǎng)度為N = Np+Nf+1的序列。然后按順序?qū)梢茢?shù)據(jù)集動(dòng)物體進(jìn)行語(yǔ)義和實(shí)例注釋,并收集到 GMO 中。

包括自行車、公共汽車、汽車、建筑、摩托車、拖車、卡車和行人,它們都被轉(zhuǎn)換為當(dāng)前坐標(biāo)系(t = 0)。

之后,再對(duì)當(dāng)前3D空間進(jìn)行體素化,并使用邊界框注釋語(yǔ)義/實(shí)際標(biāo)簽附加到可移動(dòng)對(duì)象的網(wǎng)格。

值得注意的是,在此過(guò)程中,一旦出現(xiàn)以下情況,無(wú)效實(shí)例就會(huì)被丟棄。

(1)如果它是 Np 個(gè)歷史幀中新出現(xiàn)的對(duì)象,則其可見(jiàn)性在 6 個(gè)攝像機(jī)圖像中低于 40%

(2)它首先出現(xiàn)在 Nf 個(gè)傳入幀中或者

(3)它超出了在 t = 0 時(shí)預(yù)定義的范圍(H,W,L)。可見(jiàn)性通過(guò)相機(jī)圖像中顯示的實(shí)例的所有像素的可見(jiàn)比例來(lái)量化[29]。基于恒定速度假設(shè)[22]、[44],利用順序注釋來(lái)填充缺失的中間實(shí)例。相同的操作也適用于 Lyft-Level5 數(shù)據(jù)集。

最后,論文作者利用Lyft-Level5數(shù)據(jù)集生成3D中的實(shí)例關(guān)聯(lián)生成三維向心流。利用此3D流來(lái)提高基于攝像頭的4D 占用預(yù)測(cè)的準(zhǔn)確性。

該論文的目標(biāo)不僅是預(yù)測(cè)GMO的未來(lái)位置,還要估計(jì)GSO的占用狀態(tài)和安全導(dǎo)航所需的自由空間。因此,作者們又進(jìn)一步將原始nuScenes中的順序?qū)嵗⑨屌c從nuScenes-Occupancy轉(zhuǎn)換到當(dāng)前幀的順序占用注釋連接起來(lái)。這種組合平衡了自動(dòng)駕駛應(yīng)用中下游導(dǎo)航的安全性和精度。GMO標(biāo)簽借鑒了原始nuScenes的邊界框標(biāo)注,可以看作是對(duì)可移動(dòng)障礙物進(jìn)行了膨脹操作。GSO 和免費(fèi)標(biāo)簽由nuScenes-Occupancy提供,專注于周圍大型環(huán)境的更細(xì)粒度的幾何結(jié)構(gòu)。

介紹完數(shù)據(jù)集,接下來(lái)是評(píng)估協(xié)議。為了充分發(fā)揮僅使用攝像頭的 4D 占用預(yù)測(cè)性能,作者在 Cam4DOcc 中建立了具有不同復(fù)雜程度的各種評(píng)估任務(wù)和指標(biāo)。

論文在標(biāo)準(zhǔn)化評(píng)估協(xié)議中引入了四級(jí)占用預(yù)測(cè)任務(wù):

(1)預(yù)測(cè)膨脹的GMO:所有占用網(wǎng)格的類別分為GMO和其他,其中來(lái)自nuScenes和LyftLevel5的實(shí)例邊界框內(nèi)的體素網(wǎng)格被注釋作為GMO。

(2)預(yù)測(cè)細(xì)粒度GMO:類別也分為GMO和其他,但GMO的注釋直接來(lái)自nuScenes-Occupancy的體素標(biāo)簽,去除了第2節(jié)中介紹的無(wú)效網(wǎng)格。

(3)預(yù)測(cè)膨脹的GMO、細(xì)粒度GSO和自由空間:類別分為來(lái)自邊界框注釋的GMO、遵循細(xì)粒度注釋的GSO和自由空間。

(4)預(yù)測(cè)細(xì)粒度GMO、細(xì)粒度GSO和自由空間:類別分為GMO和GSO,均遵循細(xì)粒度注釋,和自由空間。由于 Lyft-Level5 數(shù)據(jù)集缺少占用標(biāo)簽,因此作者僅對(duì)其第一個(gè)任務(wù)進(jìn)行指標(biāo)評(píng)估。對(duì)于所有四個(gè)任務(wù),作者使用交并集(IoU)作為性能指標(biāo)。作者分別評(píng)估當(dāng)前時(shí)刻 (t = 0) 占用率估計(jì)和未來(lái)時(shí)間 (t ∈ [1, Nf ]) 預(yù)測(cè):

其中St'和St分別表示時(shí)間戳t處的估計(jì)體素狀態(tài)和真實(shí)體素狀態(tài),更接近當(dāng)前時(shí)刻的時(shí)間戳的IoU對(duì)最終的IoUf貢獻(xiàn)更大。這符合“接近時(shí)間戳的占用預(yù)測(cè)對(duì)于后續(xù)運(yùn)動(dòng)規(guī)劃和決策更為重要”的yuan。

接下來(lái),論文作者們又提出了四種基線。

為了建立一個(gè)全面比較的基準(zhǔn),基于攝像頭的感知和預(yù)測(cè)功能,論文引入了四種不同類型的基線方法。

這些方法包括靜態(tài)世界占用模型、點(diǎn)云預(yù)測(cè)的體素化、基于2D-3D實(shí)例的預(yù)測(cè)。這些基線方法為論文提供了一個(gè)框架,以便可以比較和評(píng)估各種方法在當(dāng)前和未來(lái)占用估計(jì)方面的性能。

靜態(tài)世界占用模型可以理解為一種假設(shè)環(huán)境在短時(shí)間內(nèi)保持不變的簡(jiǎn)單方法。在這種假設(shè)下,當(dāng)前估計(jì)的占用網(wǎng)格可以作為所有未來(lái)時(shí)間步的預(yù)測(cè)。這種方法僅基于靜態(tài)世界假設(shè),即在預(yù)測(cè)的時(shí)間范圍內(nèi),場(chǎng)景中的物體不會(huì)發(fā)生顯著的運(yùn)動(dòng)變化。(如下圖)

點(diǎn)云預(yù)測(cè)的體素化是指將點(diǎn)云預(yù)測(cè)的結(jié)果轉(zhuǎn)換為體素(voxel)表示的一種方法。

一般這個(gè)過(guò)程涉及幾個(gè)步驟:

深度估計(jì):首先,使用環(huán)視攝像頭捕獲的圖像,通過(guò)深度估計(jì)算法生成連續(xù)的周圍視圖深度圖。

點(diǎn)云生成:接著,通過(guò)射線投射(ray casting)技術(shù),將深度圖轉(zhuǎn)換為3D點(diǎn)云。這個(gè)過(guò)程模擬了激光雷達(dá)(LiDAR)的工作原理,通過(guò)多個(gè)攝像頭的深度信息來(lái)重建三維空間中的點(diǎn)。

點(diǎn)云預(yù)測(cè):使用現(xiàn)有的點(diǎn)云預(yù)測(cè)方法(如PCPNet)來(lái)預(yù)測(cè)未來(lái)時(shí)間步的3D點(diǎn)云。這些方法通常基于當(dāng)前的點(diǎn)云數(shù)據(jù),通過(guò)學(xué)習(xí)點(diǎn)云隨時(shí)間變化的模式來(lái)預(yù)測(cè)未來(lái)的點(diǎn)云。

語(yǔ)義分割:預(yù)測(cè)得到的點(diǎn)云通過(guò)語(yǔ)義分割算法(如Cylinder3D)進(jìn)行處理,以提取可移動(dòng)和靜態(tài)物體的點(diǎn)級(jí)標(biāo)簽。

體素化:最后,將預(yù)測(cè)得到的點(diǎn)云轉(zhuǎn)換為體素表示,即將每個(gè)點(diǎn)映射到一個(gè)三維網(wǎng)格中,形成占用網(wǎng)格(occupancy grid)。這樣,每個(gè)體素代表一個(gè)空間體積,其值表示該空間是否被物體占據(jù)。

這種方法的關(guān)鍵作用在于,它能夠?qū)Ⅻc(diǎn)云預(yù)測(cè)的結(jié)果轉(zhuǎn)換為一種適合于占用預(yù)測(cè)的格式,即體素化表示。通過(guò)這種方式,可以更好地評(píng)估和比較不同預(yù)測(cè)方法在自動(dòng)駕駛場(chǎng)景中對(duì)動(dòng)態(tài)和靜態(tài)物體未來(lái)狀態(tài)的預(yù)測(cè)能力。

基于2D-3D實(shí)例的預(yù)測(cè)指的是一種基于實(shí)例的預(yù)測(cè)方法,它使用環(huán)繞視圖攝像頭來(lái)預(yù)測(cè)近未來(lái)的語(yǔ)義場(chǎng)景,包括車輛、行人等動(dòng)態(tài)物體的位置和運(yùn)動(dòng)。這種方法是作為Cam4DOcc基準(zhǔn)中的一個(gè)基線提出的,用于評(píng)估和比較不同的4D占用預(yù)測(cè)方法。

當(dāng)然,在智駕網(wǎng)看來(lái),基于2D-3D實(shí)例的預(yù)測(cè)方法也有一定局限性。

這個(gè)方法涉及到2D實(shí)例預(yù)測(cè)的步驟,2D實(shí)例預(yù)測(cè)是指使用2D鳥(niǎo)瞰圖(BEV)格式的實(shí)例預(yù)測(cè)算法(如PowerBEV)來(lái)預(yù)測(cè)動(dòng)態(tài)物體在未來(lái)時(shí)間步的語(yǔ)義分布。這些算法直接從多視圖2D攝像頭圖像中提取BEV特征,并結(jié)合時(shí)間信息來(lái)估計(jì)未來(lái)的實(shí)例分布。

局限就在于它依賴于2D BEV格式的預(yù)測(cè),并且假設(shè)所有動(dòng)態(tài)物體在同一高度上運(yùn)動(dòng),這可能不適用于所有場(chǎng)景,特別是在復(fù)雜的城市環(huán)境中。

上述三種基線在執(zhí)行任務(wù)過(guò)程中都存在局限性,因?yàn)椴荒苤苯宇A(yù)測(cè)未來(lái)三維空間的占用狀態(tài),它們需要額外的后處理——根據(jù)現(xiàn)有結(jié)果擴(kuò)展和轉(zhuǎn)化為四維空間占用預(yù)測(cè)。

因此,論文也提出了端到端的4D占用預(yù)測(cè)網(wǎng)絡(luò)OCFNet。

02.

OCFNet:端到端4D占用預(yù)測(cè)的創(chuàng)新

OCFNet能夠直接從攝像頭圖像中預(yù)測(cè)3D空間的未來(lái)占用狀態(tài),而不需要依賴于2D到3D的轉(zhuǎn)換。

OCFNet通過(guò)接收連續(xù)的環(huán)繞視圖攝像頭圖像,能夠同時(shí)預(yù)測(cè)當(dāng)前占用狀態(tài)和未來(lái)占用變化。該網(wǎng)絡(luò)利用多幀特征聚合模塊和未來(lái)狀態(tài)預(yù)測(cè)模塊,不僅預(yù)測(cè)了物體的占用狀態(tài),還預(yù)測(cè)了物體的運(yùn)動(dòng)流,為自動(dòng)駕駛車輛提供了更為豐富和精確的信息。

最后論文結(jié)果分析,OCFNet的性能在多個(gè)任務(wù)上超過(guò)了第一段分析的三個(gè)基線方法(靜態(tài)世界占用模型、點(diǎn)云預(yù)測(cè)的體素化、2D-3D實(shí)例基礎(chǔ)預(yù)測(cè))。

比如下圖中的實(shí)驗(yàn)任務(wù)是預(yù)測(cè)nuScenes和LyftLevel5上的GMO。這里OpenOccupancy-C、PowerBEV和OCFNet僅使用膨脹的GMO標(biāo)簽進(jìn)行訓(xùn)練,而PCPNet則通過(guò)整體點(diǎn)云進(jìn)行訓(xùn)練。OCFNet和OCFNet†優(yōu)于所有其他基線,在 nuScenes上的IoUf和IoUf'上超過(guò)基于BEV的方法12.4%和13.3%。在Lyft-Level5上,作者的OCFNet和OCFNet†在 IoUf和IoUf'方面始終優(yōu)于PowerBEV-3D 20.8%和21.8%。

下圖顯示了OCFNet和CFNet†對(duì)nuScenes GMO占用率進(jìn)行預(yù)測(cè)的結(jié)果,這表明僅使用有限數(shù)據(jù)訓(xùn)練的OCFNet仍然可以合理地捕獲GMO占用網(wǎng)格的運(yùn)動(dòng)。此外,預(yù)測(cè)對(duì)象的形狀在未來(lái)的時(shí)間步長(zhǎng)中會(huì)顯著失去一致性。OpenOccupancy-C的性能遠(yuǎn)優(yōu)于點(diǎn)云預(yù)測(cè)基線,但與PowerEBV-3D和OCFNet相比,估計(jì)當(dāng)前占用率和預(yù)測(cè)未來(lái)占用率的能力仍然較弱。

通過(guò)在提出的Cam4DOcc基準(zhǔn)上運(yùn)行所有基線方法,作者收集了詳細(xì)的性能數(shù)據(jù)。評(píng)估指標(biāo)包括交并比IoU和視頻全景質(zhì)量(VPQ),這些指標(biāo)衡量了模型在當(dāng)前和未來(lái)時(shí)間步的占用預(yù)測(cè)準(zhǔn)確性。

結(jié)果表明,OCFNet在多個(gè)任務(wù)上都取得了更高的IoU分?jǐn)?shù),這表明在預(yù)測(cè)當(dāng)前和未來(lái)的占用狀態(tài)方面更為準(zhǔn)確。

為了進(jìn)一步證明OCFNet的優(yōu)勢(shì),作者還進(jìn)行了消融研究,展示了網(wǎng)絡(luò)中不同組件(如流預(yù)測(cè)頭)對(duì)性能的貢獻(xiàn)。

下圖實(shí)驗(yàn)表明,在當(dāng)前和未來(lái)的占用率估計(jì)中,完整的OCFNet比沒(méi)有流預(yù)測(cè)頭的OCFNet增強(qiáng)了約 4%。原因可能是 3D 流程指導(dǎo)學(xué)習(xí)每個(gè)時(shí)間間隔的 GMO 運(yùn)動(dòng),從而幫助模型確定下一個(gè)時(shí)間戳中占用估計(jì)的變化。

簡(jiǎn)單來(lái)講,OCFNet的優(yōu)勢(shì)在于,通過(guò)端到端的方式直接預(yù)測(cè)未來(lái)的占用狀態(tài),減少了傳統(tǒng)方法中的偽影,提供了更準(zhǔn)確的預(yù)測(cè)結(jié)果。

盡管OCFNet取得了顯著的成果,但如若應(yīng)用在未來(lái)的工作上,對(duì)于更長(zhǎng)時(shí)間段內(nèi)多個(gè)移動(dòng)物體的預(yù)測(cè),論文認(rèn)為這一任務(wù)仍然具有挑戰(zhàn)性。不過(guò)未來(lái)的工作可以在此基礎(chǔ)上進(jìn)一步提高預(yù)測(cè)的準(zhǔn)確性和魯棒性。

03.

說(shuō)到最后,端到端的技術(shù)興起背后

馬斯克的第一性原理同樣可以化套用在自動(dòng)駕駛的能力上。

如果從第一性原理來(lái)講,自動(dòng)駕駛就是一個(gè)序列到序列的映射過(guò)程,輸入的是一個(gè)傳感器信號(hào)序列,可能包括多個(gè)攝像頭采集到的視頻、Lidar采集到的點(diǎn)云、GPS、IMU 等各類信息,輸出的是一個(gè)駕駛決策序列,例如可以是駕駛動(dòng)作序列,也可以輸出軌跡序列再轉(zhuǎn)為操作動(dòng)作。

這個(gè)過(guò)程與大部分AI任務(wù)基本一致,這種映射過(guò)程就相當(dāng)于一個(gè)函數(shù)y= f(x),但實(shí)現(xiàn)這種函數(shù)難度較大,任務(wù)復(fù)雜,一般解決方式包括分治法、端到端、傳統(tǒng)分治法等。

端到端的方式原理最為簡(jiǎn)單——直接尋找一個(gè)函數(shù)實(shí)現(xiàn)y=f(x)。

相比之下,端到端自動(dòng)駕駛不進(jìn)行任務(wù)切分,希望直接輸入傳感器數(shù)據(jù)、輸出駕駛決策(動(dòng)作或者軌跡),從而拋棄傳統(tǒng)自動(dòng)駕駛里的感知、預(yù)測(cè)、規(guī)劃、控制等各類子任務(wù)。這種方式有明顯的優(yōu)勢(shì),例如:

•效果上:不但系統(tǒng)更簡(jiǎn)單,還能實(shí)現(xiàn)全局最優(yōu)。

•效率上:由于任務(wù)更少,避免了大量重復(fù)處理,可以提高計(jì)算效率。

•數(shù)據(jù)收益:不需要大量的人工策略、只需要采集足夠多的優(yōu)質(zhì)駕駛數(shù)據(jù)來(lái)訓(xùn)練即可,可以通過(guò)規(guī)模化的方式(不斷擴(kuò)展數(shù)據(jù))來(lái)不斷提升系統(tǒng)的能力上限。

一個(gè)典型的端到端自動(dòng)駕駛系統(tǒng)如圖所示:

輸入:大部分自動(dòng)駕駛汽車都裝載了攝像頭、Lidar、毫米波雷達(dá)等各類傳感器,采集這些傳感器的數(shù)據(jù),輸入深度學(xué)習(xí)系統(tǒng)即可。

輸出:可以直接輸出轉(zhuǎn)向角、油門、剎車等控制信號(hào),也可以先輸出軌跡再結(jié)合不同的車輛動(dòng)力學(xué)模型,將軌跡轉(zhuǎn)為轉(zhuǎn)向角、油門、剎車等控制信號(hào)。

可見(jiàn),端到端自動(dòng)駕駛系統(tǒng)就像人類的大腦,通過(guò)眼睛、耳朵等傳感器接收信息,經(jīng)過(guò)大腦處理后,下達(dá)指令給手腳執(zhí)行命令……但是這種簡(jiǎn)單也隱藏了巨大的風(fēng)險(xiǎn),例如可解釋性很差,無(wú)法像傳統(tǒng)自動(dòng)駕駛?cè)蝿?wù)一樣將中間結(jié)果拿出來(lái)進(jìn)行分析;對(duì)數(shù)據(jù)的要求非常高,需要高質(zhì)量的、分布多樣的、海量的訓(xùn)練數(shù)據(jù),否則 AI 就會(huì)實(shí)現(xiàn)垃圾進(jìn)垃圾出。

與傳統(tǒng)的自動(dòng)駕駛方式對(duì)比可見(jiàn),同樣的輸入、同樣的輸出,傳統(tǒng)自動(dòng)駕駛包含多個(gè)任務(wù)(多個(gè)模塊),但是端到端只有一個(gè)任務(wù)。此處容易產(chǎn)生一個(gè)誤區(qū),即認(rèn)為傳統(tǒng)的自動(dòng)駕駛是多模塊的、端到端自動(dòng)駕駛是單模塊的,把分模塊與分任務(wù)的概念搞混了。

傳統(tǒng)的自動(dòng)駕駛是分任務(wù)的,必然是多個(gè)模塊。端到端自動(dòng)駕駛可以用單模塊來(lái)實(shí)現(xiàn),當(dāng)然也可以用多模塊來(lái)實(shí)現(xiàn),其區(qū)別在于是否端到端訓(xùn)練。分任務(wù)系統(tǒng)是每個(gè)任務(wù)獨(dú)立訓(xùn)練、獨(dú)立優(yōu)化、獨(dú)立測(cè)評(píng)的,而端到端系統(tǒng)是把所有模塊看成一個(gè)整體進(jìn)行端到端訓(xùn)練、端到端測(cè)評(píng)的。

例如2023年CVPR best paper提出的UniAD就是一種分模塊端到端訓(xùn)練方式,這種方式通過(guò)端到端訓(xùn)練避免了多任務(wù)訓(xùn)練的融合難題實(shí)現(xiàn)全局最優(yōu),又保留了分模塊系統(tǒng)的優(yōu)勢(shì)、可以拋出中間模塊的結(jié)果進(jìn)行白盒化分析,反而更具靈活性對(duì)部署也更友好,如圖所示:

分任務(wù)的自動(dòng)駕駛系統(tǒng)更像model centric系統(tǒng),開(kāi)發(fā)者通過(guò)不斷優(yōu)化各個(gè)模型來(lái)提升各個(gè)任務(wù)的效果。而端到端自動(dòng)駕駛則更像data centric系統(tǒng),通過(guò)對(duì)數(shù)據(jù)的調(diào)優(yōu)來(lái)提升系統(tǒng)效果。

早年,由于自動(dòng)駕駛積累的數(shù)據(jù)還非常少,端到端系統(tǒng)的效果往往比較差。最近幾年,隨著帶高階輔助駕駛功能的量產(chǎn)車大規(guī)模落地,通過(guò)海量量產(chǎn)車可以采集到豐富的駕駛數(shù)據(jù),覆蓋各類場(chǎng)景,再加上最近幾年 AI 算力的蓬勃發(fā)展,端到端自動(dòng)駕駛在海量數(shù)據(jù)、海量算力的加持下,取得了突破性進(jìn)展。

以特斯拉為例,通過(guò)遍布全球的幾百萬(wàn)輛量產(chǎn)車,可以采集到足夠豐富、足夠多樣的數(shù)據(jù),再?gòu)闹羞x出優(yōu)質(zhì)數(shù)據(jù),在云端使用數(shù)萬(wàn)張 GPU、以及自研的 DOJO 進(jìn)行訓(xùn)練和驗(yàn)證,使得端到端自動(dòng)駕駛能夠從 paper 變成 product。

到 2023 年初,特斯拉就聲稱已經(jīng)分析了從特斯拉客戶的汽車中收集的1000萬(wàn)個(gè)視頻片段(clips),特斯拉判斷完成一個(gè)端到端自動(dòng)駕駛的訓(xùn)練至少需要100萬(wàn)個(gè)、分布多樣、高質(zhì)量的clips才能正常工作。

特斯拉通過(guò)分布在全球的幾百萬(wàn)量產(chǎn)車,基于影子模式,每當(dāng)自動(dòng)駕駛決策與人類司機(jī)不一致時(shí),就會(huì)采集并回傳一個(gè) clip,已經(jīng)累積了 200P 以上的數(shù)據(jù),不管是數(shù)據(jù)規(guī)模、數(shù)據(jù)分布還是數(shù)據(jù)質(zhì)量上都遙遙領(lǐng)先。為了能在云端處理這些數(shù)據(jù),當(dāng)前特斯拉擁有近10萬(wàn)張A100,位居全球top5,預(yù)計(jì)到今年底會(huì)擁有100EFlops的算力,并針對(duì)自動(dòng)駕駛自研了Dojo,在算力上同樣遙遙領(lǐng)先。

端到端的挑戰(zhàn)比當(dāng)前帶來(lái)的驚喜感要更多。

從特斯拉的開(kāi)發(fā)經(jīng)驗(yàn)來(lái)看,端到端自動(dòng)駕駛門檻頗高,其所需的數(shù)據(jù)規(guī)模、算力規(guī)模遠(yuǎn)遠(yuǎn)超出國(guó)內(nèi)企業(yè)的承受能力。

汽車活動(dòng)更多>>

2024年西北工業(yè)大學(xué)附屬中學(xué)教師崗位招聘公告 2025年度天津市衛(wèi)生健康委員會(huì)所屬天津市和平保育院(天津市衛(wèi)生健康委員會(huì)幼兒園)招聘方案(3人) 2024年安順市紫云自治縣到重點(diǎn)師范大學(xué)等高校招聘師范生公告 2025年泉州市惠安縣公辦學(xué)校赴西南大學(xué)專項(xiàng)招聘編制內(nèi)新任教師公告 還在看漢蘭達(dá)和攬巡?不到22萬(wàn),這款車型直接卷翻合資車! 動(dòng)力總成終身質(zhì)保只要15.99萬(wàn)元起,帕薩特380TSI家族越級(jí)上市 虧電油耗僅3.8L/100km,2025款漢DM-i又是爆款? 9月10日,問(wèn)界M9大五座即將上市,是乘勝追擊還是穩(wěn)中求變?讓我們通過(guò)這款車來(lái)看看50萬(wàn)以上豪華車車主真正需要什么科技豪華?事實(shí)上,問(wèn)界M9的熱銷一定有其原因,除了產(chǎn)品力在各個(gè)維度與BBA保持相同水準(zhǔn)或超越,更是把50萬(wàn)以上豪華車車主的使用場(chǎng)景研究得分毫不差。 全新一代架構(gòu)與平臺(tái)齊發(fā),東風(fēng)汽車科技躍遷再提速 12萬(wàn)不到就能買純電中大型車,星海S7到底有多猛? 捷途山海L7上市:不是純?cè)揭埃胱?ldquo;多面手SUV”? 銀河“收編”幾何,星愿重構(gòu)10萬(wàn)A0級(jí)電車新秩序 2024年江西省皮膚病專科醫(yī)院招聘勞務(wù)派遣制人員公告 2024年撫州市第一人民醫(yī)院招聘博士簡(jiǎn)章 2024年贛州市應(yīng)急管理局招聘工作人員公告 2024年贛州市“引才聚贛州 攜手創(chuàng)未來(lái)”事業(yè)單位招聘高層次人才公告(西安站) 2024年吉安幼兒師范高等專科學(xué)校招聘教師公告 2024年贛州市招聘綜合行政執(zhí)法隊(duì)工作人員公告 2024年贛州市會(huì)昌縣人民法院招聘聘用制工作人員公告 2024年萍鄉(xiāng)市第二人民醫(yī)院招聘合同制放療物理師公告 軸距2947mm,爆237馬力,惠后20.97萬(wàn)元起,這臺(tái)豪華中型車帶勁不 售價(jià)11.98萬(wàn),軸距2820mm,配側(cè)滑門+L2級(jí)輔助駕駛,這款SUV香? 后驅(qū)+掀背,綜合續(xù)航1330km,長(zhǎng)安啟源A07全新真香版適合家用 鴻蒙智行TechDay:華為ICT技術(shù)的積累 要怎樣引領(lǐng)智能駕駛新時(shí)代? 業(yè)界大佬齊聚極越07上市現(xiàn)場(chǎng) 李彥宏笑出表情包 嘴角比AK都難壓 動(dòng)力/座艙/智駕全面升級(jí) 新款福特探險(xiǎn)者上市 起售價(jià)309800 2025款奇瑞瑞虎9油電雙車上市 售價(jià)15.29萬(wàn)元起 問(wèn)界新M7交付量突破20萬(wàn)臺(tái) 推出國(guó)慶購(gòu)車權(quán)益 朋友8.5萬(wàn)買卡羅拉,總覺(jué)得哪里不對(duì),你們說(shuō)呢? 五菱驚世K-Car!側(cè)滑門神車僅6萬(wàn)?國(guó)產(chǎn)車王再戰(zhàn)江湖?
主站蜘蛛池模板: 养母1~3动漫免费 | 色综合久久中文字幕综合网 | 国产一区二区三区日韩 | 国产精品久久久久这里只有精品 | 欧美视频在线观看免费精品欧美视频 | 国产成人一区二区三区免费观看 | 免费的黄网站 | 伊人国产在线播放 | 一级大片免费观看 | 亚洲美女视频网址 | 一级特黄aaa大片免色 | 一级片特黄 | 五月激情丁香婷婷综合第九 | 亚洲美女免费视频 | 一区二区三区四区视频在线观看 | 国产精品久久亚洲一区二区 | 国产91精品一区二区麻豆网站 | 四虎最新免费观看网址 | 亚洲女人的天堂 | 欧美在线高清 | 国产成人精品高清免费 | 99热这里只有精品国产在热久久 | 国产福利影院 | 久久99精品久久久久久首页 | 免费看一区二区三区 | 久久悠| 成人免费观看www在线 | 亚洲免费黄色 | 色综合色综合色综合色综合 | 91福利国产在线观看一区二区 | 一级日本高清视频免费观看 | 成人综合久久综合 | 欧美一级高清黄图片 | 久久久精品午夜免费不卡 | 亚洲国产精品国产自在在线 | 国产免费福利网站 | 国产成人精品视频2021 | 中国一级特黄真人毛片免费看 | 久久国产成人亚洲精品影院老金 | 真实国产乱子伦精品免费 | 看一级毛片一区二区三区免费 |