- 資訊與博客
商湯王曉剛:天下模子帶來智能駕駛3.0階段
9月21日,,,,,由汽車之家主辦的「汽車之家全球AI科技大會」在北京舉行。。。。。。商湯科技聯合創始人、執行董事、CTO、商湯絕影CEO王曉剛出席大會,,,,,並發表《天下模子:智能駕駛範式演進新路標》主題演講,,,,,分享了「絕影開悟」天下模子給智能駕駛帶來的技術變遷。。。。。。

演講中他談到三個焦点點:
第一,,,,,天下模子「天生式智駕」帶來智能駕駛3.0階段。。。。。。智能駕駛從依賴人工標注的「規則式智駕」1.0階段,,,,,發展到把人類行爲積累轉化成爲模子的「端到端智駕」2.0階段,,,,,最終正邁向通過天下模子和强化學習,,,,,帶來逾越人類的「天生式智駕」3.0階段。。。。。。
第二,,,,,「絕影開悟」天下模子推動智能駕駛在三個方面取得突破。。。。。。 一是突破數據瓶頸,,,,,通過天下模子能够天生無限長尾場景;;;;;;;;二是有越发確定的技術清静邊界,,,,,通過仿真模擬物理天下,,,,,在仿真環境中不斷嘗試;;;;;;;;三是通過自主進化達到逾越人類駕駛的體驗。。。。。。
第三,,,,,「絕影開悟」天下模子實現全場景覆蓋,,,,,推動智能駕駛、具身智能跨越式發展。。。。。。天下模子積累百萬級數據集,,,,,覆蓋各種複雜的場景,,,,,實現高保真、多視角時空一致性、4D實時互動。。。。。。同時,,,,,天下模子在自動駕駛場景裏開發出來的技術體系,,,,,也將賦能具身智能發展。。。。。。
以下爲主題演講內容:
列位領導、列位同仁、列位嘉賓,,,,,各人下昼好!
很是感謝汽車之家的邀請,,,,,來參加全球AI科技大會,,,,,也能够有機會和各人分享天下模子——通用人工智能給自動駕駛帶來的技術的變遷。。。。。。
▎天下模子「天生式智駕」帶來智能駕駛3.0階段
首先,,,,,我們認爲自動駕駛技術演進的頻率是很是浚??????斓摹。。。。。自動駕駛作爲人工智能很是主要的組成部分,,,,,它的技術變遷也反应了人工智能發展的三個階段。。。。。。各人比較熟悉的基於規則的智能駕駛,,,,,是自動駕駛的第一個階段。。。。。。這一階段通過AI輸出感知的結果,,,,,建设各種規則,,,,,並預定義這些邏輯,,,,,再根據優化物理模子實現規控。。。。。。;;;;;;;渡鲜霈F象,,,,,我們在人工智能發展的每個階段會問這樣一個問題:智能究竟是從哪裏來????????實際上,,,,,在第一個階段,,,,,许多的智能來自於人工。。。。。。人類需要大宗標注各類感知數據,,,,,然後获得它的輸出,,,,,並人工書寫各式各樣的規則。。。。。。以是在上述階段有一句話:有几多人工就有几多的智能。。。。。。而這個階段很像人工智能1.0發展的階段,,,,,例如我們會做许多人臉識別的視頻剖析;;;;;;;;我們會針對安防的場景,,,,,人工輸入智能的數據。。。。。。
第二個階段是大模子的出現,,,,,這是人工智能領域2.0,,,,,代表産品如ChatGPT。。。。。。在互聯網上出現了過去许多年人類行爲的數據積累,,,,,好比各種文章、代碼,,,,,這些都是人類行爲智能的體現。。。。。。在自動駕駛領域,,,,,對應的是人類的駕駛行爲,,,,,也就是第二階段行業內推動的端到端自動駕駛。。。。。。端到端自動駕駛把過去長時間人類行爲積累的智能轉化成爲模子的智能,,,,,這時候就出現了很大的智能和體驗上的躍遷。。。。。。可是其自身也有瓶頸,,,,,那即是人類的行爲就是智能的天花板,,,,,同時這種智能依賴大宗高質量數據。。。。。。從自動駕駛發展來看,,,,,今天的大模子發展也遇到了上述瓶頸,,,,,因爲我們在互聯網上積累起來的數據價值面臨枯竭田地。。。。。。
因此,,,,,便進入了第三個階段,,,,,通過天下模子,,,,,通過天生式智駕,,,,,通過强化學習做出進一步的突破。。。。。。舉一個很是典范的例子,,,,,2015年在圍棋領域出現了AIphaGo。。。。。。之後又出現了AIphaZero,,,,,相較於AIphaGo,,,,,AIphaZero不需要任何人類知識的輸入,,,,,它也能够産生大宗的智能。。。。。。现在在自動駕駛領域,,,,,各人都希望有一個天下模子,,,,,這個模子就像在圍棋裏面,,,,,能够創造棋盤和人類定義的圍棋規則,,,,,這即是更高階的智能。。。。。。對照圍棋的例子,,,,,我們希望自動駕駛也能够通過强化學習來突破人類行爲上限。。。。。。要達成這個目標,,,,,我們就需要一個天下模子。。。。。。讓天下模子來模擬物理天下的規律、人類行爲的法則和規律。。。。。。在仿真的天下模子環境裏面,,,,,機器通過强化學習做到不斷的提升,,,,,以及突破人類駕駛的上限。。。。。。
我們可以看到今天在人工智能3.0的發展中,,,,,人們還提出了具身智能,,,,,這是從原來互聯網數據走出來,,,,,通過跟物理天下交互産生的新智能。。。。。。在具身智能領域,,,,,天下模子也會饰演很是主要的角色。。。。。。
▎「絕影開悟」天下模子推動智能駕駛在三個方面取得突破
回到端到端自動駕駛所面臨的問題,,,,,主要有三個方面。。。。。。一是需要大宗的數據。。。。。。特斯拉擁有幾百萬台車,,,,,并且這些車的傳感器设置是一致的,,,,,以是能够回流大宗的數據。。。。。。而我們面臨的問題是沒有云云規模的數據。。。。。。二是對於各種危險複雜的場景,,,,,尤其是Corner Case,,,,,這些場景獲得本钱是很是高的,,,,,風險也是很是高的。。。。。。怎麽獲得這些高質量的數據是我們需要解决的問題。。。。。。第三個是清静的邊界,,,,,F在端到端自動駕駛中發現一個問題場景,,,,,我們就需要採集许多跟這個場景所類似的其他數據,,,,,重新訓練模子。。。。。。可是模子訓練完之後也不可够確定這個場景是否真正被解决,,,,,因爲端到端技術有不確定性在。。。。。。
針對這些問題,,,,,我們要把天下模子、强化學習,,,,,以及端到端技術相結合。。。。。。在這裏,,,,,焦点是要有一個端到端的多模態大模子。。。。。。這個模子的輸入可能是各種視覺的、激光的、語言文字導航的信息,,,,,輸出是車輛的行爲。。。。。。端到端大模子會預測車輛的軌迹,,,,,基於預測的軌迹反饋給天下模子,,,,,天下模子就能够模擬仿真出物理天下將會怎樣的變化,,,,,給我們反饋基於天下模子合成的視頻,,,,,這些反饋將重新訓練端到端模子。。。。。。并且這個要领會告訴我們,,,,,什麽樣的仿真模子是好的,,,,,云云循環往復的迭代,,,,,不斷提升端到端的性能。。。。。。同時,,,,,在這個仿真環境裏面可以無數次的試錯,,,,,有了問題場景以後,,,,,通過無數次的嘗試一定能够解决我們所關心的問題,,,,,并且還能做到舉一反三、舉一反十、甚至反百。。。。。。當下的天下模子並不是無中生有,,,,,而是針對問題場景,,,,,我們通過複現物理場景,,,,,把現實裏不可改變的各種要素,,,,,如天氣、蹊径、車速等,,,,,通過模擬仿真場景,,,,,比較徹底地解决類似問題。。。。。。
接下來我給各人舉一個例子,,,,,看一看我們是怎麽用天下模子和强化學習來解决問題的。。。。。。這裏展示的是一個問題場景。。。。。。前方有一個施工佔道場景出現,,,,,我們需要急刹,,,,,各人想一想完成這個動作需要幾步????????第一步需要做4D仿真的複現,,,,,通過3DGS和靜態場景複現,,,,,依托天下模子對它進行修復,,,,,就能够获得更高質量的4D空間。。。。。。在4D空間裏就可以嘗試各種差别駕駛的行爲,,,,,調整端到端模子,,,,,嘗試各種差别的駕駛行爲,,,,,直到在這個環境裏找到最佳的駕駛行爲。。。。。。我們有一套完善的辦法去評價什麽樣的駕駛行爲是好的。。。。。。
在上述單一場景裏我們获得模子的更新和驗證後,,,,,接下來我們需要获得它進一步的多個泛化場景,,,,,F實天下中有许多類似的場景,,,,,好比說複雜的施工區域,,,,,需要換道通行,,,,,遇到圍欄需要减速等。。。。。。這些差别的場景都是通過天下模子所天生出來的各類泛化場景。。。。。。我們的模子在這些泛化場景裏面做進一步的學習,,,,,以及進行測試。。。。。。
以是說現在的天下模子已經可以推動自動駕駛在三個方面取得突破。。。。。。一是數據瓶頸,,,,,可以通過天下模子産生無限長尾場景。。。。。。二是能够获得驗證的技術邊界,,,,,通過仿真模擬恢復物理的天下,,,,,在仿真環境不斷的嘗試。。。。。。三是通過强化學習達到逾越人類駕駛的體驗。。。。。。
▎「絕影開悟」天下模子實現全場景覆蓋,,,,,推動智能駕駛、具身智能跨越式發展
要解决這些問題,,,,,背後焦点是需要有個很是强盛、質量很是高的天下模子來重構萬千天下,,,,,讓清静有更多的確定性。。。。。。我們對天下模子會有哪些要求呢????????一是天生的數據應該是能够面向量産的,,,,,能够有更多的場景,,,,,并且能够一鍵天生複雜可控的場景。。。。。。二是場景裏面有各種因素,,,,,可以針對各種因素進行編輯,,,,,能够把各種因素通過自由組合方法,,,,,實現更多的拓展。。。。。。三是實時,,,,,在一定空間裏面有很是高效的推理效率,,,,,促使在天下模子裏面進行實時互動。。。。。。
這裏我們給各人看一個例子。。。。。。我們坐車裏遇到Cut-in這樣比較危險的場景。。。。。。我們可以看到車裏有7個攝像頭,,,,,每個攝像頭都在記錄。。。。。。而要天生一個好的天下模子,,,,,就要坚持多個攝像頭下的時空一致性。。。。。。早在2024年,,,,,Sora模子就可以完成各種視頻的天生,,,,,現现在用天下模子做自動駕駛的話,,,,,它的難點在哪裏????????那即是天生有連續性的視頻比圖像更難。。。。。。天生用在自動駕駛環境裏視頻需要面臨许多困難,,,,,面對有衆多的攝像頭,,,,,模子要坚持多個攝像頭的時空一致性。。。。。。好比說面對車牌、蹊径的限行情形,,,,,各個攝像頭裏的內容應該是一致的。。。。。。另外,,,,,還有空間的幾何關係得是一致的,,,,,這樣天生的視頻才华够有用的用作自動駕駛的訓練和測試。。。。。。
基於此,,,,,我們可以針對剛剛提到的打車Cut-in場景改變各種要素,,,,,好比換差别的天氣條件、差别的蹊径路形、插入的大車車型、車速和Cut-in的距離。。。。。。有了這些之後,,,,,模子完全可以做到舉一反十、反一百、反一千。。。。。。并且各人可以看到,,,,,這裏一鍵天生了越发複雜的場景,,,,,例如車禍和碰撞的場景。。。。。。
在這裏我們還需要對場景裏面的各種要素做到恣意編輯,,,,,好比恣意替換差别的車型、增添車輛、镌汰相應的車輛,,,,,模擬差别的駕駛環境。。。。。。
并且模子也需要能够做到實時的推理,,,,,這裏我們展示的是在上海市區場景,,,,,在這個場景裏可以自由地開車、加减速、轉彎。。。。。。各人所看到的這些視頻都與真實天下的物理環境很是靠近。。。。。。
天下模子産品化,,,,,開放API後,,,,,用戶可以形貌他所想採用的數據,,,,,然後一鍵天生形成各種各樣所期待的視頻。。。。。。我們現在積累的百萬級數據集,,,,,覆蓋各種複雜的場景,,,,,能够實現高保真,,,,,F现在每一個Clips有150s,,,,,車輛有7個攝像頭就能坚持比1080P更好的圖像質量。。。。。。
再說到基礎設施,,,,,現在各地政府也建设了實訓場,,,,,能够提供算力的平台,,,,,真實採集實車的數據。。。。。。另外,,,,,有一半的數據也是通過天下模子模擬仿真進行天生,,,,,兩組數據相結合可以提供給車企進行端到端模子的訓練。。。。。。
最後說下,,,,,在自動駕駛場景裏使用的天下模子所開發出來的所有技術體系,,,,,其實也可以用到具身智能裏。。。。。。具身智能對天下模子的需求越发迫切。。。。。。因爲機器人的數量比車輛數量更少,,,,,并且每個機器人硬件的设置千差萬別。。。。。。我們希望在具身智能領域裏,,,,,天下模子能够做到多模態、數據對齊,,,,,能够获得4D空間,,,,,能够進行快速的推理。。。。。。我給各人舉兩個例子,,,,,一是輸入一條指令讓機器人能够在公園裏進行跳躍,,,,,就會自動地天生機器人的骨胳、姿態、動作的變化,,,,,基於這個能够天生機器人第一視角看到視頻的數據和第三視角的數據。。。。。。另外輸入指令讓機器臂切黃瓜,,,,,同樣可以天生第一和第三視角的數據。。。。。。未來我們可以用這些大宗的模擬仿真數據,,,,,來推動自動駕駛和具身智能跨越到下一個階段。。。。。。
謝謝各人!






返回