在自動(dòng)駕駛領(lǐng)域,技術(shù)的演進(jìn)如同一場(chǎng)接力賽,從早期的基于規(guī)則的系統(tǒng),到端到端模型,再到視覺語言模型(VLM),如今已經(jīng)發(fā)展到視覺語言行動(dòng)模型(VLA)階段。每一步的跨越,都不僅僅是技術(shù)的迭代,“人工智能”實(shí)質(zhì)性應(yīng)用的范例。
什么是VLA?
VLA(Vision-Language-Action Model)是視覺-語言-行為大模型,它融合了視覺、語言和行動(dòng)三種能力,將其統(tǒng)一在一個(gè)模型里,只輸入到機(jī)器就可執(zhí)行動(dòng)作的端到端映射,從而賦予模型強(qiáng)大的3D空間理解、邏輯推理和行為生成能力,讓自動(dòng)駕駛能夠感知、思考和適應(yīng)環(huán)境。
VLA模型由多個(gè)關(guān)鍵模塊組成,包括視覺編碼器、語言編碼器、跨模態(tài)融合模塊和動(dòng)作生成模塊。視覺編碼器負(fù)責(zé)從圖像或視頻中提取高層次視覺特征,語言編碼器則處理自然語言輸入,跨模態(tài)融合模塊將視覺和語言特征進(jìn)行整合,而動(dòng)作生成模塊則根據(jù)融合后的信息生成車輛的控制指令。
VLA的核心特性包括多模態(tài)感知與決策、全局上下文理解和系統(tǒng)透明性。它能夠基于視覺和語言信息進(jìn)行實(shí)時(shí)感知,并通過“思維鏈”技術(shù)構(gòu)建類人邏輯,推理復(fù)雜場(chǎng)景下的最優(yōu)駕駛決策。此外,VLA能夠理解長(zhǎng)達(dá)數(shù)十秒的全局路況信息,這對(duì)于施工工區(qū)、潮汐車道等復(fù)雜場(chǎng)景尤為重要。最重要的是,VLA的推理過程全程可求導(dǎo),能夠通過車載顯示向用戶解釋駕駛邏輯,增強(qiáng)用戶信任感。
VLA能干嘛?
最早的輔助駕駛采用模塊化架構(gòu),由于感知、規(guī)劃及執(zhí)行系統(tǒng)相對(duì)獨(dú)立,且每個(gè)步驟都要占用一定的計(jì)算時(shí)間,整體系統(tǒng)的響應(yīng)較慢,延時(shí)較高。簡(jiǎn)單來說就是需要在既定的規(guī)則下,同時(shí)依賴高精地圖,類似螞蟻的行動(dòng)和完成任務(wù)的方式。但無法完成更復(fù)雜的事情,需要不斷地加限定規(guī)則。
后期,端到端階段通過大模型學(xué)習(xí)人類駕駛行為,足以應(yīng)對(duì)大部分泛化場(chǎng)景,但很難解決從未遇到過或特別復(fù)雜的問題,此時(shí)需要配合VLM(視覺語言模型)。VLM模型對(duì)復(fù)雜交通環(huán)境具有更強(qiáng)的理解能力,但現(xiàn)有視覺語言模型在應(yīng)對(duì)復(fù)雜交通環(huán)境時(shí)只能起到輔助作用。
當(dāng)來到VLA階段,利用3D視覺和2D的組合構(gòu)建更真實(shí)的物理世界,此階段系統(tǒng)可實(shí)現(xiàn)看懂導(dǎo)航軟件的運(yùn)行邏輯,而非VLM階段僅能看到一張圖。同時(shí),VLA不僅能看到物理世界,更能理解物理世界,具有自己的語言和思維鏈系統(tǒng),有推理能力,可以像人類一樣去執(zhí)行一些復(fù)雜動(dòng)作,在汽車自動(dòng)駕駛領(lǐng)域稱之為VLA的司機(jī)大模型。
簡(jiǎn)單來說,VLA能夠更好的處理人類駕駛行為的多模態(tài)性,可以適應(yīng)更多駕駛風(fēng)格。
在海量的優(yōu)質(zhì)數(shù)據(jù)的加持下,VLA模型在絕大多數(shù)場(chǎng)景下能接近人類的駕駛水平;隨著偏好數(shù)據(jù)的逐步豐富,模型的表現(xiàn)也逐步接近專業(yè)司機(jī)的水平,安全下限也得到了巨大的提升。最后,VLA能夠解決到全自動(dòng)駕駛,甚至有機(jī)會(huì)超過人類開車能力的一種方式。
世界模型又是什么?
世界模型(World Model)通過構(gòu)建一個(gè)虛擬的環(huán)境模型,來模擬和預(yù)測(cè)真實(shí)世界中的交通場(chǎng)景。
世界模型的核心是通過感知數(shù)據(jù)和語言信息,構(gòu)建一個(gè)包含交通規(guī)則、道路結(jié)構(gòu)和動(dòng)態(tài)物體的虛擬環(huán)境。這個(gè)模型不僅能夠反映當(dāng)前的交通狀況,還能夠預(yù)測(cè)未來一段時(shí)間內(nèi)的變化。
世界模型能夠?yàn)閂LA模型提供更豐富的上下文信息,幫助模型更好地理解復(fù)雜場(chǎng)景。其次,世界模型可以用于模擬訓(xùn)練,通過生成虛擬的交通場(chǎng)景,為自動(dòng)駕駛模型提供更多的訓(xùn)練數(shù)據(jù)。此外,世界模型還可以用于安全驗(yàn)證,通過模擬各種極端場(chǎng)景,驗(yàn)證自動(dòng)駕駛模型的安全性和可靠性。
換句話說,世界模型有點(diǎn)像摸底考試,通過預(yù)先對(duì)VLA一類的模型進(jìn)行測(cè)試,提高模型的效率和安全性。
目前,VLA模型的訓(xùn)練和部署面臨著巨大的計(jì)算挑戰(zhàn)。未來,隨著分布式訓(xùn)練技術(shù)的不斷發(fā)展,如張量并行和流水線并行,VLA模型的訓(xùn)練效率將大幅提高。此外,通過優(yōu)化模型架構(gòu)和采用混合精度訓(xùn)練等技術(shù),模型的部署成本也將顯著降低。(朋月)