發(fā)布時(shí)間:2023-09-25 10:40:31
序言:作為思想的載體和知識(shí)的探索者,寫作是一種獨(dú)特的藝術(shù),我們?yōu)槟鷾?zhǔn)備了不同風(fēng)格的1篇人工智能技術(shù)在自動(dòng)駕駛領(lǐng)域的應(yīng)用,期待它們能激發(fā)您的靈感。
生成式人工智能,一種基于神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)內(nèi)容生成的技術(shù),近年來(lái)受到業(yè)界以及學(xué)術(shù)界廣泛的關(guān)注。隨著該技術(shù)在各領(lǐng)域應(yīng)用的不斷深入,基于生成式人工智能的大模型對(duì)自動(dòng)駕駛領(lǐng)域的技術(shù)方案變革也帶來(lái)了巨大的影響。本文對(duì)生成式人工智能技術(shù)與大模型的發(fā)展脈絡(luò)進(jìn)行梳理,包括其分類方式和代表性模型,并對(duì)生成式模型在自動(dòng)駕駛領(lǐng)域的應(yīng)用進(jìn)行深入分析,最后,對(duì)生成式人工智能技術(shù)及自動(dòng)駕駛技術(shù)的發(fā)展方向進(jìn)行總結(jié)和展望。
關(guān)鍵詞:生成式人工智能;大模型;自動(dòng)駕駛;
1前言
現(xiàn)代人工智能技術(shù)的快速發(fā)展受益于海量標(biāo)注數(shù)據(jù)的生產(chǎn)和計(jì)算能力的提升。其以深度學(xué)習(xí)作為核心技術(shù),深度學(xué)習(xí)[1]的概念最早在機(jī)器學(xué)習(xí)領(lǐng)域提出,后推廣至人工神經(jīng)網(wǎng)絡(luò)技術(shù)領(lǐng)域。Transformer模型[2]的提出是現(xiàn)代人工智能技術(shù)的里程碑式節(jié)點(diǎn),該模型能夠保證充足數(shù)據(jù)分辨率,同時(shí)實(shí)現(xiàn)高精度數(shù)據(jù)擬合,廣泛應(yīng)用于生成式人工智能模型。生成式人工智能技術(shù)通常包括一個(gè)基于大規(guī)模數(shù)據(jù)訓(xùn)練的監(jiān)督網(wǎng)絡(luò)模型(如Transformer模型)和一個(gè)生成器模型[3],前者的主要功能是實(shí)現(xiàn)從任意類型的輸入到潛在高維數(shù)據(jù)空間的映射,后者以無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)或監(jiān)督學(xué)習(xí)的方式進(jìn)行優(yōu)化,并通過(guò)啟發(fā)式的行為以固定的方法論實(shí)現(xiàn)內(nèi)容的生成。自動(dòng)駕駛技術(shù)是近年來(lái)備受關(guān)注的汽車技術(shù)發(fā)展方向,面向復(fù)雜的場(chǎng)景,要求車輛實(shí)現(xiàn)對(duì)環(huán)境的正確理解,同時(shí)做出最優(yōu)的決策。該技術(shù)發(fā)展的初期,以激光雷達(dá)和高精地圖作為主要輸入,視覺(jué)和專家系統(tǒng)為輔助手段。隨著人工智能技術(shù)在智能駕駛領(lǐng)域的應(yīng)用,Waymo、Cruise、百度等公司通過(guò)模型完成動(dòng)態(tài)障礙物的實(shí)時(shí)檢測(cè),配合高精地圖提供的道路結(jié)構(gòu)、車道線和交通標(biāo)志等靜態(tài)信息,實(shí)現(xiàn)更有效的智能駕駛。目前,大模型逐步突破技術(shù)壁壘,成為自動(dòng)駕駛感知的主流范式。2021年,特斯拉提出的“BEV+Transformer”的技術(shù)方案,首次引入重感知、輕地圖的自動(dòng)駕駛解決方案[4]。2022年,特斯拉再次提出基于占用網(wǎng)絡(luò)(OccupancyNetwork)的技術(shù)方案,開(kāi)啟大模型在自動(dòng)駕駛領(lǐng)域應(yīng)用的新篇章[5]。此外,基于生成式人工智能技術(shù),令長(zhǎng)尾問(wèn)題的場(chǎng)景數(shù)據(jù)可以通過(guò)模型主動(dòng)生成,解決自動(dòng)駕駛面臨的長(zhǎng)尾問(wèn)題,提升算法的可靠性,為自動(dòng)駕駛的升級(jí)優(yōu)化提供保障。
2生成式人工智能技術(shù)
生成式人工智能模型的輸入和輸出數(shù)據(jù)主要包括文本、圖像、三維結(jié)構(gòu)、視頻、音頻和代碼等。根據(jù)數(shù)據(jù)的映射關(guān)系,模型可分為7類,如圖1所示。生成式人工智能技術(shù)可以實(shí)現(xiàn)多模態(tài)數(shù)據(jù)間的相互映射,根據(jù)用戶需求輸出內(nèi)容。其中,文本—文本、文本—圖像、本文—視頻和圖像—文本4類模型是能夠?yàn)樽詣?dòng)駕駛領(lǐng)域帶來(lái)顛覆性技術(shù)革新的生成式模型技術(shù)。文本—文本模型以文本數(shù)據(jù)為輸入,生成新的文本數(shù)據(jù),是常見(jiàn)序列化數(shù)據(jù)模型之一,多應(yīng)用于自然語(yǔ)言處理技術(shù),如語(yǔ)言翻譯、問(wèn)答任務(wù)系統(tǒng)等。文本—圖像模型以具有提示性的文本數(shù)據(jù)作為輸入,輸出滿足對(duì)應(yīng)需求的真實(shí)圖像數(shù)據(jù)。該模型可實(shí)現(xiàn)不同屬性、不同風(fēng)格信息的輸出。OpenAI提出的DALLE2模型[6]、Drawbench公司開(kāi)源Imagen模型[7]及由慕尼黑LMUCompVis小組開(kāi)發(fā)的StableDiffusion[8]和Muse[9]均為具有代表性的模型。文本—視頻模型通過(guò)文本數(shù)據(jù)生成連續(xù)的圖像序列。Google開(kāi)源的Phenaki[10]與Runway開(kāi)源的Soundify[11]屬于此類模型。圖像—文本模型可以獲得描述圖像的文本,是文本—圖像的逆映射。Deepmind創(chuàng)建的視覺(jué)語(yǔ)言模Flamingo[12]是其代表性模型之一,通過(guò)小樣本學(xué)習(xí)策略實(shí)現(xiàn),具有靈活性強(qiáng)、可執(zhí)行多模態(tài)任務(wù)等優(yōu)勢(shì)。該模型利用2個(gè)互補(bǔ)的模型實(shí)現(xiàn):分析視覺(jué)場(chǎng)景的視覺(jué)模型與執(zhí)行基本推理形式的大型語(yǔ)言模型。通過(guò)無(wú)縫攝取圖像或視頻交織的文本標(biāo)記序列,轉(zhuǎn)換為文本數(shù)據(jù)作為輸出。OpenAI提出的圖像字幕模型VisualGPT[13]是現(xiàn)階段最優(yōu)秀的圖像—文本模型之一,其通過(guò)預(yù)訓(xùn)練語(yǔ)言模型GPT-2實(shí)現(xiàn)。為了彌合不同模態(tài)之間的語(yǔ)義差距,特別設(shè)計(jì)了具有不飽和門控功能的編碼器-解碼器注意力機(jī)制。該模型的最大優(yōu)勢(shì)在于,它無(wú)需其他圖像—文本模型的大規(guī)模數(shù)據(jù),具備小樣本學(xué)習(xí)能力。
3生成式人工智能與自動(dòng)駕駛技術(shù)
隨著生成式人工智能技術(shù)的發(fā)展,基于該技術(shù)衍生的大模型在自動(dòng)駕駛領(lǐng)域受到廣泛關(guān)注[14]。基于生成式人工智能的大模型在自動(dòng)駕駛中規(guī)控模型的應(yīng)用將成為未來(lái)產(chǎn)業(yè)新趨勢(shì)[15]。Waymo通過(guò)生成式人工智能技術(shù)構(gòu)建世界模型,通過(guò)大模型實(shí)現(xiàn)自動(dòng)駕駛領(lǐng)域的整體功能集成[16]。同時(shí),該公司提出基于自動(dòng)駕駛模型與自然語(yǔ)言處理模型結(jié)合的技術(shù)方案,通過(guò)模型以可理解、人機(jī)互動(dòng)的流程方式,達(dá)成清晰有效的溝通,進(jìn)一步增強(qiáng)其結(jié)果的可解釋性。
3.1面向自動(dòng)駕駛的數(shù)據(jù)閉環(huán)與自動(dòng)標(biāo)注
由數(shù)據(jù)采集、數(shù)據(jù)挖掘、數(shù)據(jù)標(biāo)注和模型訓(xùn)練環(huán)節(jié)組成的數(shù)據(jù)閉環(huán)系統(tǒng)是自動(dòng)駕駛廠商必須具備的基礎(chǔ)技術(shù)能力。當(dāng)下,隨著高速智能導(dǎo)航輔助駕駛、城市導(dǎo)航輔助駕駛以及城市智慧領(lǐng)航功能等技術(shù)的不斷推進(jìn),自動(dòng)駕駛公司或整車制造商數(shù)據(jù)量逐年增長(zhǎng),甚至達(dá)到拍字節(jié)(PB)級(jí)別。與此同時(shí),數(shù)據(jù)生成的速度較快(以dSPACE公司的數(shù)據(jù)生產(chǎn)為例,4K800萬(wàn)像素的攝像頭、激光雷達(dá)、毫米波雷達(dá)等傳感器同時(shí)工作,每秒的數(shù)據(jù)生產(chǎn)量為40GB),使用方的數(shù)據(jù)處理能力面臨極大的考驗(yàn)。由此可見(jiàn),如何實(shí)現(xiàn)數(shù)據(jù)利用的最大化是提升自動(dòng)駕駛方案穩(wěn)定性的關(guān)鍵問(wèn)題之一。
3.1.1數(shù)據(jù)采集與挖掘技術(shù)
為保證自動(dòng)駕駛場(chǎng)景下采集數(shù)據(jù)的質(zhì)量,提升駕駛模型性能,算法采用特定的觸發(fā)機(jī)制實(shí)現(xiàn)數(shù)據(jù)的收集與上傳。其中,觸發(fā)機(jī)制包括人工干預(yù)自動(dòng)駕駛、特殊場(chǎng)景(近距離跟車、并線以及明顯的光照變化等)。特斯拉公司在2022年AIDAY上表示其擁有221種觸發(fā)機(jī)制[17]。為了能以最精簡(jiǎn)規(guī)模的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,有效的數(shù)據(jù)挖掘技術(shù)不可忽視,其核心目的是從收集的海量數(shù)據(jù)中提取有效數(shù)據(jù),過(guò)濾無(wú)效數(shù)據(jù)。傳統(tǒng)的模型采用基于標(biāo)簽的方式實(shí)現(xiàn),僅能實(shí)現(xiàn)固定類別的分辨,缺少更深層次的特征提取。基于生成式人工智能技術(shù),采用圖像—文本模型即可實(shí)現(xiàn),用模型生成的描述檢索圖像的有效特征,實(shí)現(xiàn)更高效的數(shù)據(jù)挖掘。基于現(xiàn)有人工智能技術(shù),當(dāng)前數(shù)據(jù)挖掘方案逐漸以大模型為主。目前,國(guó)內(nèi)外主要汽車公司和自動(dòng)駕駛公司等均致力于開(kāi)發(fā)基于大模型的數(shù)據(jù)挖掘技術(shù)。
3.1.2數(shù)據(jù)標(biāo)注技術(shù)
傳統(tǒng)的數(shù)據(jù)標(biāo)注技術(shù)仍以人工標(biāo)注為主,人工成本高、耗時(shí)長(zhǎng),速度遠(yuǎn)遠(yuǎn)低于原始數(shù)據(jù)的生產(chǎn)速度,數(shù)據(jù)應(yīng)用面臨瓶頸。此外,由于標(biāo)注人員對(duì)標(biāo)注內(nèi)容的理解不一致,存在標(biāo)注數(shù)據(jù)可靠性問(wèn)題,因此數(shù)據(jù)的二次檢驗(yàn)仍需要較大的工作量。生成式模型的顯著優(yōu)勢(shì)在于,主動(dòng)理解視頻內(nèi)容進(jìn)行自動(dòng)打標(biāo)簽,并形成產(chǎn)品化管理,提取高價(jià)值場(chǎng)景并自動(dòng)篩選。與人工標(biāo)注的方法相比,基于生成式模型的標(biāo)注方法速度更快、精度及標(biāo)注結(jié)果一致性更高,能夠?qū)崿F(xiàn)更加全面的標(biāo)注。小鵬汽車推出的全自動(dòng)標(biāo)注大模型的執(zhí)行效率相比于人工標(biāo)注提升約45000倍,即大約16.7天可實(shí)現(xiàn)2000人/年的標(biāo)注工作量[18]。毫末智行科技有限公司(以下簡(jiǎn)稱毫末智行)提出的視覺(jué)自監(jiān)督大模型[19]可實(shí)現(xiàn)100%的4DClip自動(dòng)標(biāo)注,降低約98%的標(biāo)注成本。商湯科技絕影在自動(dòng)駕駛產(chǎn)品的感知任務(wù)開(kāi)發(fā)過(guò)程中的標(biāo)注均基于大模型實(shí)現(xiàn)[20],相比人工標(biāo)注的方式,相同數(shù)量樣本的標(biāo)注周期和成本都可以縮減90%以上。
3.2面向自動(dòng)駕駛的一體化大模型
現(xiàn)階段,基于人工智能的自動(dòng)駕駛方案多采用模塊化設(shè)計(jì)思路,即感知、預(yù)測(cè)、規(guī)劃等子系統(tǒng)獨(dú)立實(shí)現(xiàn)功能。盡管模塊化能夠簡(jiǎn)化研發(fā)人員的工作流程,提供高效的問(wèn)題回溯、調(diào)試及更新接口,但各子模塊間的信息仍缺少有效傳遞,無(wú)法保持模塊之間的優(yōu)化通道。對(duì)此,開(kāi)發(fā)面向自動(dòng)駕駛系統(tǒng)的多任務(wù)一體化大模型是提升整體算法性能的有效方案。目前,學(xué)術(shù)界和工業(yè)界均對(duì)一體化多任務(wù)大模型的方案進(jìn)行了深入研究。英偉達(dá)(NVIDIA)公司在2016年即提出了基于端到端模型的自動(dòng)駕駛系統(tǒng),Uber也在該領(lǐng)域發(fā)表了較多的學(xué)術(shù)研究成果[21,22]。為了使自動(dòng)駕駛車輛通過(guò)平臺(tái)“理解世界”,英國(guó)Wayve公司也創(chuàng)立并發(fā)表其端到端的自動(dòng)駕駛方案。同時(shí),特斯拉公司“FSDMETAV12”版本系統(tǒng)將采用端到端的自動(dòng)駕駛模型。商湯科技與上海人工智能實(shí)驗(yàn)室、武漢大學(xué)聯(lián)合提出首個(gè)集感知決策一體化的端到端自動(dòng)駕駛大模型UniAD[23],并指出限制自動(dòng)駕駛模型性能的根本原因在于任務(wù)的獨(dú)立拆解,無(wú)法保證豐富的高維信息的提取,由此提出了以最終任務(wù)為導(dǎo)向、多模塊聯(lián)合優(yōu)化的端到端自動(dòng)駕駛方案。UniAD充分發(fā)揮數(shù)據(jù)驅(qū)動(dòng)的系統(tǒng)性優(yōu)勢(shì),達(dá)到感知、預(yù)測(cè)、決策多個(gè)任務(wù)結(jié)合的最優(yōu)解,將生成式人工智能大模型充分融入任務(wù)的場(chǎng)景理解。
3.3面向自動(dòng)駕駛模型的可解釋性問(wèn)題
自動(dòng)駕駛模型的可解釋性是提升其性能與優(yōu)化迭代速度的重要前提。深度學(xué)習(xí)技術(shù)的最大痛點(diǎn)之一是其過(guò)程完全隱藏于“黑匣子”中,缺少明確的可解釋性,即使用方無(wú)法根據(jù)深度學(xué)習(xí)模型輸出的結(jié)果逆向推導(dǎo)其原理。基于生成式人工智能技術(shù)的自動(dòng)駕駛模型在其理解及決策過(guò)程中,可以某種方式輸出(例如文本)理解過(guò)程及決策原因,即結(jié)果誤判時(shí),可快速地查找對(duì)應(yīng)的原因。受益于啟發(fā)式的自監(jiān)督強(qiáng)化學(xué)習(xí)技術(shù),自動(dòng)駕駛模型可進(jìn)一步逆向?qū)ψ陨磉M(jìn)行優(yōu)化和調(diào)整,實(shí)現(xiàn)模型的自動(dòng)迭代。
3.4面向自動(dòng)駕駛場(chǎng)景的生成模型
長(zhǎng)尾問(wèn)題包括各種零碎的場(chǎng)景、極端情況和無(wú)法預(yù)測(cè)的人類行為,是自動(dòng)駕駛系統(tǒng)面臨的難題之一[24]。該領(lǐng)域現(xiàn)有的人工智能技術(shù)大多是用人工采集標(biāo)注的數(shù)據(jù)集訓(xùn)練。由于實(shí)際數(shù)據(jù)為復(fù)雜場(chǎng)景,人工標(biāo)注通常無(wú)法包含全部場(chǎng)景的數(shù)據(jù)信息支持,從而降低模型的魯棒性。通常,自動(dòng)駕駛模型發(fā)現(xiàn)車輛行為存在邊界情況時(shí),需要補(bǔ)全額外的數(shù)據(jù),對(duì)模型參數(shù)進(jìn)行優(yōu)化。實(shí)際上,該方法一定程度上令長(zhǎng)尾問(wèn)題的場(chǎng)景復(fù)現(xiàn)難度過(guò)大,無(wú)法保證數(shù)據(jù)采集的有效性,導(dǎo)致采集效率低下。同樣地,雖然傳統(tǒng)的3D建模可實(shí)現(xiàn)虛擬場(chǎng)景仿真,但由于建模機(jī)制不夠完善,無(wú)法保證生成場(chǎng)景數(shù)據(jù)的質(zhì)量,進(jìn)而使生成的場(chǎng)景數(shù)據(jù)無(wú)法有效支持模型優(yōu)化。通過(guò)生成式人工智能技術(shù),如文本—圖像,文本—視頻生成模型,可通過(guò)對(duì)其模型的優(yōu)化與訓(xùn)練實(shí)現(xiàn)近似于真實(shí)場(chǎng)景的仿真數(shù)據(jù)的生成[25]。同時(shí),上述生成式人工智能技術(shù)可通過(guò)其強(qiáng)大的數(shù)據(jù)映射能力實(shí)現(xiàn)場(chǎng)景數(shù)據(jù)的快速變換,為自動(dòng)駕駛模型的快速優(yōu)化與迭代提供最基本的前提保障。
4面向大模型的云端算力與芯片架構(gòu)
同早期人工智能技術(shù)相比,基于現(xiàn)代生成式人工智能的大模型的主要區(qū)別在于模型參數(shù)和數(shù)據(jù)的提取方式。其中,模型參數(shù)的大幅增長(zhǎng)提高了對(duì)云端算力的需求,數(shù)據(jù)相關(guān)性提取方式的改變?yōu)橛?jì)算芯片架構(gòu)提供了新的設(shè)計(jì)導(dǎo)向。
4.1面向大模型的算力需求
大模型技術(shù)已經(jīng)逐步應(yīng)用于各大汽車制造商和自動(dòng)駕駛公司的產(chǎn)業(yè)化項(xiàng)目[26]。特斯拉2022年AIDAY表示訓(xùn)練其模型需要14億幀圖像數(shù)據(jù)。Momenta公司提出要實(shí)現(xiàn)L4級(jí)自動(dòng)駕駛的產(chǎn)業(yè)化[27],自動(dòng)駕駛系統(tǒng)達(dá)到人類的安全水平甚至比人類安全水平高一個(gè)數(shù)量級(jí),至少需要千億公里的數(shù)據(jù)訓(xùn)練、測(cè)試與驗(yàn)證。
為使模型能夠在海量數(shù)據(jù)中實(shí)現(xiàn)快速訓(xùn)練,提升計(jì)算資源成為各大汽車廠商與自動(dòng)駕駛公司亟需解決的首要問(wèn)題[28]。基礎(chǔ)設(shè)施建設(shè)方面,特斯拉在2021年和2022年分別擁有約1萬(wàn)塊和1.4萬(wàn)塊圖形處理器(GraphicsProcessingUnit,GPU),預(yù)計(jì)2024年將擁有等效10萬(wàn)塊NVIDIAA100GPU的算力資源。2022年8月,小鵬汽車成立自動(dòng)駕駛AI智算中心“扶搖”,具備60億億浮點(diǎn)運(yùn)算能力。此外,國(guó)內(nèi)其他公司包括吉利汽車、毫末智行、智己汽車、百度和商湯科技等也都完成了算力的積累,如表1所示。
4.2面向大模型的芯片架構(gòu)
基于現(xiàn)代生成式人工智能技術(shù)的大模型需要大量的計(jì)算資源,如何實(shí)現(xiàn)海量計(jì)算資源的最大化利用是汽車制造商、自動(dòng)駕駛公司和芯片公司面臨的另一難題。前文提出,大模型多是基于Transformer實(shí)現(xiàn)的,內(nèi)部采用的是記憶力機(jī)制單元模塊。不同于基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的人工智能模型(如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)),Transformer在提取數(shù)據(jù)之間的相關(guān)性過(guò)程中存在更多的訪存密集型算子。因此,為提升大模型的運(yùn)行效率,芯片的架構(gòu)需進(jìn)行針對(duì)性改進(jìn):a.運(yùn)算精度要求。Transformer的建模是通過(guò)不斷加權(quán)映射實(shí)現(xiàn),因此,對(duì)芯片的運(yùn)算精度存在一定的要求。現(xiàn)階段,面向人工智能的主流芯片大多采用INT8即整型精度算力,而基于Transformer的大模型需要在浮點(diǎn)運(yùn)算的芯片平臺(tái)上運(yùn)行,才可取得較高的精度結(jié)果。目前,特斯拉已經(jīng)完成“D1”芯片的自研,并構(gòu)建超算平臺(tái)解決自動(dòng)駕駛大模型的訓(xùn)練與優(yōu)化。b.運(yùn)算算子要求。訪存密集是大模型的運(yùn)算特點(diǎn),需要針對(duì)性地設(shè)計(jì)訪存密集型算子,解決芯片的計(jì)算效率問(wèn)題,從而實(shí)現(xiàn)穩(wěn)定性高、可移植性高、并行化程度高、計(jì)算精度高的高效運(yùn)算算子。
5大模型自動(dòng)駕駛技術(shù)的未來(lái)展望
5.1多任務(wù)大模型與自動(dòng)駕駛
受ChatGPT的啟發(fā),毫末智行開(kāi)發(fā)面向自動(dòng)駕駛的生成式大模型DriveGPT[29],采用無(wú)監(jiān)督學(xué)習(xí)進(jìn)行初始模型的訓(xùn)練,強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)模型優(yōu)化。通過(guò)輸入感知級(jí)的激勵(lì)數(shù)據(jù)(如障礙物信息、道路環(huán)境以及關(guān)鍵交通要素),DriveGPT能夠完成障礙物預(yù)測(cè)、決策規(guī)劃控制以及決策邏輯鏈的輸出等任務(wù)。目前,生成式大模型已經(jīng)在自動(dòng)駕駛的部分領(lǐng)域取得了巨大的創(chuàng)新性成果,構(gòu)建多任務(wù)、一體化的大模型將是面向自動(dòng)駕駛領(lǐng)域的重大技術(shù)創(chuàng)新。
5.2車端模型的功能解耦
至今,大模型仍受到海量模型參數(shù)與計(jì)算資源的限制,由于其運(yùn)行均在云端實(shí)現(xiàn),無(wú)法完成車端的獨(dú)立運(yùn)行。如何對(duì)大模型進(jìn)行功能解耦,實(shí)現(xiàn)車端的運(yùn)行成為未來(lái)要攻克的難題。以知識(shí)蒸餾[30]的方式,完成大模型對(duì)車端小模型進(jìn)行優(yōu)化是解決上述問(wèn)題的有效手段之一,亦是大模型到車端功能落地的有效方案。
5.3多任務(wù)生成式大模型
理論上,基于多任務(wù)生成式人工智能模型可同時(shí)實(shí)現(xiàn)仿真數(shù)據(jù)生成、標(biāo)注、感知、預(yù)測(cè)和決策多種功能。UniAD模型的成功表明,多任務(wù)聯(lián)合優(yōu)化能夠?qū)崿F(xiàn)多源數(shù)據(jù)相關(guān)性的有效提取并提升整體性能。因此,如何通過(guò)多任務(wù)生成式大模型實(shí)現(xiàn)高效數(shù)據(jù)閉環(huán)、模塊化功能解耦等技術(shù)將是推動(dòng)自動(dòng)駕駛技術(shù)走向成熟的關(guān)鍵環(huán)節(jié)。
6結(jié)束語(yǔ)
生成式人工智能技術(shù)在文本、圖像等多個(gè)領(lǐng)域均取得了豐富的研究成果,基于生成式人工智能的大模型技術(shù)也為自動(dòng)駕駛領(lǐng)域提供了新的解決方案。未來(lái),隨著研究人員對(duì)技術(shù)研究的深入以及硬件水平的提升,基于輕量化平臺(tái)的應(yīng)用將進(jìn)一步拓展技術(shù)的應(yīng)用范圍,擴(kuò)展其應(yīng)用量產(chǎn)落地能力。
參考文獻(xiàn)
[1]劉建偉,劉媛,羅雄麟.深度學(xué)習(xí)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2014,31(7):1921-1930+1942.
[2]KHANS,NASEERM,HAYATM,etal.Transformersinvision:Asurvey[J].ACMcomputingsurveys(CSUR),2022,54(10s):1-41.
[3]YANLH,KAOCW,HWANGBJ,etal.Home-BasedReal-TimeAbnormalMovementDetectionSystemDeployedonOn-DeviceArtificialIntelligence[J].InternationalJournalofPatternRecognitionandArtificialIntelligence,2023,37(7).DOI:10.1142/S0218001423590127.
[4]LIZ,WANGW,LIH,etal.Bevformer:Learningbird’seye-viewrepresentationfrommulti-cameraimagesviaspatiotemporaltransformers[C]//Europeanconferenceoncomputervision.Cham:SpringerNatureSwitzerland,2022:1-18.
[5]MESCHEDERL,OECHSLEM,NIEMEYERM,etal.Occupancynetworks:Learning3dreconstructioninfunctionspace[C]//ProceedingsoftheIEEE/CVFconferenceoncomputervisionandpatternrecognition.2019:4460-4470.
[6]DARASG,DIMAKISAG.Discoveringthehiddenvocabularyofdalle-2[EB/OL].(2022-06-01)[2023-08-18].arXivpreprintarXiv:2206.00169,2022.
[7]SAHARIAC,CHANW,SAXENAS,etal.Photorealistictext-to-imagediffusionmodelswithdeeplanguageunderstanding[J].AdvancesinNeuralInformationProcessingSystems,2022,35:36479-36494.
[8]KINGMAD,SALIMANST,POOLEB,etal.Variationaldiffusionmodels[J].Advancesinneuralinformationprocessingsystems,2021,34:21696-21707.
[9]CHANGH,ZHANGH,BARBERJ,etal.Muse:Text-toimagegenerationviamaskedgenerativetransformers[EB/OL].(2023-01-02)[2023-08-18].arXivpreprintarXiv:2301.00704,2023.
[10]VILLEGASR,BABAEIZADEHM,KINDERMANSPJ,etal.Phenaki:Variablelengthvideogenerationfromopendomaintextualdescription[EB/OL].(2022-10-05)[2023-08-18].arXivpreprintarXiv:2210.02399,2022.
[11]LINDCE,GERMANIDISA,VALENZUELAC,etal.Soundify:Matchingsoundeffectstovideo[EB/OL].(2021-11-17)[2023-08-18].arXivpreprintarXiv:2112.09726,2021.
[12]ALAYRACJB,DONAHUEJ,LUCP,etal.Flamingo:avisuallanguagemodelforfew-shotlearning[J].AdvancesinNeuralInformationProcessingSystems,2022,35:23716-23736.
[13]CHENJ,GUOH,YIK,etal.Visualgpt:Data-efficientadaptationofpretrainedlanguagemodelsforimagecaptioning[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2022:18030-18040.
[14]INTODIAS,GUPTAS,YERAMALLIY,etal.LiteratureReview:SuperResolutionforAutonomousVehiclesusingGenerativeAdversarialNetworks[C]//20237thInternationalConferenceonIntelligentComputingandControlSystems(ICICCS).IEEE,2023:1466-1472.
[15]李白楊,白云,詹希旎等.人工智能生成內(nèi)容(AIGC)的技術(shù)特征與形態(tài)演進(jìn)[J].圖書情報(bào)知識(shí),2023,40(01):66-74.DOI:10.13366/j.dik.2023.01.066.
[16]NIRANJANDR,VINAYKARTHIKBC.Deeplearningbasedobjectdetectionmodelforautonomousdrivingresearchusingcarlasimulator[C]//20212ndinternationalconferenceonsmartelectronicsandcommunication(ICOSEC).IEEE,2021:1251-1258.
[17]芝能汽車.特斯拉2022AIDay,從車企演變?yōu)榭萍技汗綶EB/OL].(2022-10-02)[2023-08-18].
[18]小鵬汽車.小鵬汽車建成中國(guó)最大自動(dòng)駕駛智算中心“扶搖”模型訓(xùn)練提速近170倍[EB/OL].(2022-08-02)[2023-08-18].
[19]XUH,GHOSHG,HUANGPY,etal.Videoclip:Contrastivepre-trainingforzero-shotvideo-textunderstanding[EB/OL].(2021-09-28)[2023-08-18].arXivpreprintarXiv:2109.14084,2021.
[20]商湯.AIGC日日生新,商湯發(fā)布SenseTrust治理平臺(tái),護(hù)航生成式AI可信發(fā)展[EB/OL].(2023-07-19)[2023-08-18].
[21]MáTTYUSG,LUOW,URTASUNR.Deeproadmapper:Extractingroadtopologyfromaerialimages[C]//ProceedingsoftheIEEEinternationalconferenceoncomputervision,2017:3438-3446.
[22]LUOW,YANGB,URTASUNR.Fastandfurious:Realtimeend-to-end3ddetection,trackingandmotionforecastingwithasingleconvolutionalnet[C]//ProceedingsoftheIEEEconferenceonComputerVisionandPatternRecognition,2018:3569-3577.
[23]HUY,YANGJ,CHENL,etal.Planning-orientedautonomousdriving[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition,2023:17853-17862.
[24]清華大學(xué)智能產(chǎn)業(yè)研究院.張亞勤:AI大模型時(shí)代[EB/OL].(2023-05-08)[2023-08-18].
[25]STAPPENL,DILLMANNJ,STRIEGELS,etal.IntegratingGenerativeArtificialIntelligenceinIntelligentVehicleSystems[EB/OL].(2023-05-15)[2023-08-18].arXivpreprintarXiv:2305.17137,2023.
[26]DUM.AutonomousVehicleIndustrialization[M]//AutonomousVehicleTechnology:GlobalExplorationandChinesePractice.Singapore:SpringerNatureSingapore,2022:233-262.
[27]MOMENTA.重新定義無(wú)人駕駛關(guān)鍵路徑,Momenta打造飛輪式L4[EB/OL].(2020-07-01)[2023-08-18].
[28]江浩,王寬,叢偉倫等.決策控制模型仿真數(shù)據(jù)生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì):CN115146394A[P].2022-10-04.
[29]新華網(wǎng).毫末智行發(fā)布自動(dòng)駕駛生成式大模型DriveGPT雪湖·海若[EB/OL].(2023-04-12)[2023-08-18].
[30]凌志,李幸,張婷,等.基于多層次知識(shí)蒸餾的連續(xù)圖像語(yǔ)義分割方法[J].計(jì)算機(jī)集成制造系統(tǒng),2023,29(4):1244-1253.
作者:夏以檸 單位:北京師范大學(xué)