黑人视频在线播放|欧美韩俄黄片在线|亚洲国产αv首页|久草欧美精选视频|亚洲孕妇一级毛片|国产黄色网址美女|成人影院亚洲色图|日韩女优久草视频|五月天激情av五月丁香久久婷婷|国产黄骗免费专区日韩无码视频流出

第一步
第二步
第三步
第四步
第五步
//彈窗容器
關閉按鈕

從"只會看路"到"情境感知":ICCV 2025自動駕駛挑戰(zhàn)賽冠軍方案詳解

2025-11-20 10:09    來源: 商業(yè)新聞    影響力評估指數(shù):20.56  

北京2025年11月19日 /美通社/ -- 近日,在全球權威的ICCV 2025自動駕駛國際挑戰(zhàn)賽(Autonomous Grand Challenge)中,浪潮信息AI團隊所提交的"SimpleVSF"(Simple VLM-Scoring Fusion)算法模型以53.06的出色成績斬獲端到端自動駕駛賽道(NAVSIM v2 End-to-End Driving Challenge)第一名。

SimpleVSF深度融合了傳統(tǒng)軌跡規(guī)劃與視覺-語言模型(Vision-Language Model, VLM)的高級認知能力,能夠理解復雜的交通情境,突破了現(xiàn)有端到端自動駕駛模型"只會看路、缺乏思考"的局限。這得益于兩大關鍵創(chuàng)新:一方面,引入VLM增強打分器,使打分器不再僅僅依賴于原始的傳感器數(shù)據(jù),而是能夠理解深層的交通意圖和"常識",從而選出更安全、更合理的駕駛方案;另一方面,采用雙重軌跡融合決策機制(權重融合器和VLM融合器),進一步融合多個打分器選出的軌跡,確保最終決策不僅數(shù)值最優(yōu),而且語義合理。

本篇文章將根據(jù)浪潮信息提交的技術報告"SimpleVSF: VLM-Scoring Fusion for Trajectory Prediction of End-to-End Autonomous Driving",詳解其使用的創(chuàng)新架構、優(yōu)化措施和實驗結果。

一、背景與挑戰(zhàn)

近年來,自動駕駛技術飛速發(fā)展,正從傳統(tǒng)的模塊化流程(Modular Pipeline)逐步邁向更高效、更具魯棒性的端到端(End-to-End)范式。傳統(tǒng)的模塊化系統(tǒng)(感知、定位、規(guī)劃、控制)容易在各模塊間積累誤差,且面對復雜場景時,信息的層層傳遞往往導致決策滯后或次優(yōu)。端到端方法旨在通過神經(jīng)網(wǎng)絡直接從傳感器輸入生成駕駛動作或軌跡,實現(xiàn)信息流的統(tǒng)一與優(yōu)化。然而,要真正讓機器像人類一樣在復雜環(huán)境中做出"聰明"的決策,仍面臨巨大的技術挑戰(zhàn)。

NAVSIM框架旨在通過模擬基礎的指標來解決現(xiàn)有問題,具體方法是展開場景簡化的鳥瞰圖(Bird s-Eye View, BEV)抽象,并在一個較短的模擬時間范圍內推演出行車軌跡。為了超越僅在人類數(shù)據(jù)采集中觀察到的狀態(tài)下評估駕駛系統(tǒng), NAVSIM v2 挑戰(zhàn)賽引入了反應式背景交通參與者和真實的合成新視角輸入,以便更好地評估模型的魯棒性和泛化能力。

目前針對該類任務的主流方案大致可分為三類。第一類是基于Transformer自回歸的方案,通過路徑點的逐一預測得到預測軌跡,代表工作是Transfuser[1]。第二類是基于Diffusion的方案,通過在去噪時引入各種控制約束得到預測軌跡,代表工作是DiffusionDrive[2]。第三類是基于Scorer的方案,通過對一個預定義的軌跡詞表進行打分篩選得到預測軌跡,代表工作是GTRS[3]。

二、方法介紹

浪潮信息AI團隊提出了SimpleVSF框架,其核心創(chuàng)新在于引入了視覺-語言模型(VLM)作為高層認知引擎,并設計了雙重融合策略,將VLM的語義理解能力高效地注入到軌跡評分與選擇的全流程中。

圖1 SimpleVSF整體架構圖

圖1 SimpleVSF整體架構圖

SimpleVSF框架可以分為三個相互協(xié)作的模塊:

基礎:基于擴散模型的軌跡候選生成

框架的第一步是高效地生成一套多樣化、高質量的候選軌跡集合。

  • 技術選型:采用擴散模型(Diffusion-based Trajectory Generator)。
  • 作用:擴散模型基于自車狀態(tài)和環(huán)境的鳥瞰圖(BEV)表示進行條件生成。其優(yōu)勢在于能夠捕捉軌跡分布的多模態(tài)性,生成一系列在運動學上可行且具有差異性的錨點(Anchors),為后續(xù)的精確評估提供充足的"備選方案"。

核心:VLM 增強的混合評分機制(VLM-Enhanced Scoring)

SimpleVSF采用了混合評分策略,它搭建了高層語義與低層幾何之間的橋梁。其工作原理如下:

A.語義輸入:利用一個經(jīng)過微調的VLM(Qwen2VL-2B[4])作為語義處理器。VLM 接收以下三種信息:

(i)前視攝像頭圖像:提供場景的視覺細節(jié)。

(ii)自車狀態(tài):實時速度、加速度等物理量。

(iii)高層駕駛指令: 規(guī)劃系統(tǒng)輸入的抽象指令,如"左轉"、"向前行駛"等。

B.輸出認知指令:VLM根據(jù)這些輸入,輸出認知指令(Cognitive Directives)。這些指令是高層的、類似于人類思考的抽象概念,例如:

縱向指令:"保持速度"、"加速"、"緩慢減速"、"停車"

橫向指令:"保持車道中心"、"微調向左"、"大角度右轉"

C.可學習的特征融合:這些抽象的語言/指令(如"停車")首先通過一個可學習的編碼層(Cognitive Directives Encoder),被巧妙地轉換為密集的數(shù)值特征。這個VLM特征隨后與自車狀態(tài)和傳統(tǒng)感知輸入拼接(Concatenated),共同作為軌跡評分器解碼的輸入。通過這種顯式融合,VLM的高層語義理解不再是模型隱含的特性,而是直接參與到軌跡的數(shù)值代價計算中。

保障:雙重軌跡融合策略(Trajectory Fusion)

為了實現(xiàn)魯棒、平衡的最終決策,SimpleVSF 采用了兩種融合機制來保障最終輸出軌跡的質量。

A.量化融合:權重融合器(Weight Fusioner, WF)

  • 機制: 這是一個基于定量嚴謹性的主機制。它負責將來自多個評分器和多個模型(包括VLM增強評分器和傳統(tǒng)評分器)的得分進行高效聚合。
  • 融合流程:

(i)指標聚合:將單個軌跡在不同維度(如碰撞風險、舒適度、效率)上的得分進行初次聚合。

(ii)模型聚合:采用動態(tài)加權方案,根據(jù)當前場景的重要性,動態(tài)地調整來自不同模型(如多個VLM增強評分器)的聚合得分的權重。

  • 作用: 確保了在大多數(shù)常規(guī)場景下,最終的決策是基于多方輸入、統(tǒng)計學上最可靠的選擇。

B. 質性融合:VLM融合器(VLM Fusioner, VLMF)

圖2 VLM融合器的軌跡融合流程

圖2 VLM融合器的軌跡融合流程

  • 機制:旨在通過VLM的定性推理能力進行最終的語義精煉。
  • 融合流程:

(i)軌跡精選:從每一個獨立評分器中,選出排名最高的軌跡。

(ii)LQR 模擬與渲染:這些精選軌跡通過 LQR 模擬器進行平滑處理,確保運動學可行性。然后,它們被可視化并渲染到當前的前視攝像頭圖像上,形成一個包含"潛在行動方案"的視覺信息圖。

(iii)將包含渲染軌跡的圖像以及文本指令提交給一個更大、能力更強的 VLM 模型(Qwen2.5VL-72B[5]),并明確要求 VLM 根據(jù)場景和指令,定性選擇出"最合理"的軌跡。

  • 作用: 賦予了系統(tǒng)一道語義校驗關卡,確保最終決策不僅數(shù)值最優(yōu),更在高層認知和常識上合理。

三、實驗結果

為驗證優(yōu)化措施的有效性,浪潮信息AI團隊在Navhard數(shù)據(jù)子集上進行了消融實驗,結果如下表所示。以Version A作為基線(baseline)。

表1 SimpleVSF在Navhard數(shù)據(jù)子集不同設置下的消融實驗

表1 SimpleVSF在Navhard數(shù)據(jù)子集不同設置下的消融實驗

在不同特征提取網(wǎng)絡的影響方面,浪潮信息AI團隊使用了三種不同的Backbones,即V2-99[6]、EVA-ViT-L[7]、ViT-L[8],分別對應Version A、Version B、Version C。結果表明,Backbones的選擇對性能起著重要作用。ViT-L明顯優(yōu)于其他Backbones。

在VLM增強評分器的有效性方面,Version D和Version E集成了VLM增強評分器,Version D優(yōu)于對應的相同backbone的傳統(tǒng)評分器Version A,證明了語義指導的價值。雖然Version E的個體性能與對應的相同backbone的傳統(tǒng)評分器Version C相比略低,但VLM增強評分器的真正優(yōu)勢在于它們的融合潛力。

在軌跡融合策略的性能方面,通過融合策略,浪潮信息AI團隊觀察到了最顯著的性能提升。WF B+C+D+E在Navhard數(shù)據(jù)集上取得了47.18的EPDMS得分。最終,浪潮信息AI團隊在Private_test_hard分割數(shù)據(jù)集上也使用了這四個評分器的融合結果。VLMF A+B+C也取得了令人印象深刻的 EPDMS 47.68,但由于提交規(guī)則限制,未在最終的排行榜提交中使用此融合策略。

表2 SimpleVSF在競賽Private_test_hard數(shù)據(jù)子集上的表現(xiàn)

表2 SimpleVSF在競賽Private_test_hard數(shù)據(jù)子集上的表現(xiàn)

在最終榜單的Private_test_hard分割數(shù)據(jù)集上,浪潮信息AI團隊提出的SimpleVSF框架在排行榜上獲得了第一名,取得了53.06的總EPDMS分數(shù)。對于Stage I,它在TLC(交通燈合規(guī)性)上獲得了100分,在DAC(可駕駛區(qū)域合規(guī)性)和 DDC(駕駛方向合規(guī)性)上獲得了99.29分,這展示了模型的魯棒性及其對關鍵交通規(guī)則的遵守能力。對于Stage I和Stage II,浪潮信息AI團隊的NC(無過失碰撞)分數(shù)在所有參賽團隊中處于領先地位。雖然其他方法可能在某些方面表現(xiàn)出色,但浪潮信息AI團隊的SimpleVSF在指標上實現(xiàn)了綜合平衡。

四、總結

本文介紹了獲得端到端自動駕駛賽道第一名的"SimpleVSF"算法模型。SimpleVSF框架成功地將視覺-語言模型從純粹的文本/圖像生成任務中引入到自動駕駛的核心決策循環(huán),完成了從"感知-行動"到"感知-認知-行動"的升維。

[1] Chitta, K.; Prakash, A.; Jaeger, B.; Yu, Z.; Renz, K.; Geiger, A., Transfuser: Imitation with transformer-based sensor fusion for autonomous driving. IEEE transactions on pattern analysis and machine intelligence 2022, 45 , 12878-12895.

[2] Liao, B.; Chen, S.; Yin, H.; Jiang, B.; Wang, C.; Yan, S.; Zhang, X.; Li, X.; Zhang, Y.; Zhang, Q. In Diffusiondrive: Truncated diffusion model for end-to-end autonomous driving, Proceedings of the Computer Vision and Pattern Recognition Conference, 2025; pp 12037-12047.

[3] Li, Z.; Yao, W.; Wang, Z.; Sun, X.; Chen, J.; Chang, N.; Shen, M.; Wu, Z.; Lan, S.; Alvarez, J. M., Generalized Trajectory Scoring for End-to-end Multimodal Planning. arXiv preprint arXiv:2506.06664 2025.

[4] Wang, P.; Bai, S.; Tan, S.; Wang, S.; Fan, Z.; Bai, J.; Chen, K.; Liu, X.; Wang, J.; Ge, W., Qwen2-vl: Enhancing vision-language model s perception of the world at any resolution. arXiv preprint arXiv:2409.12191 2024.

[5] Bai, S.; Chen, K.; Liu, X.; Wang, J.; Ge, W.; Song, S.; Dang, K.; Wang, P.; Wang, S.; Tang, J., Qwen2. 5-vl technical report. arXiv preprint arXiv:2502.13923 2025.

[6] Lee, Y.; Hwang, J.-w.; Lee, S.; Bae, Y.; Park, J. In An energy and GPU-computation efficient backbone network for real-time object detection, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, 2019; pp 0-0.

[7] Fang, Y.; Sun, Q.; Wang, X.; Huang, T.; Wang, X.; Cao, Y., Eva-02: A visual representation for neon genesis. Image and Vision Computing 2024, 149, 105171.

[8] Dosovitskiy, A.; Beyer, L.; Kolesnikov, A.; Weissenborn, D.; Zhai, X.; Unterthiner, T.; Dehghani, M.; Minderer, M.; Heigold, G.; Gelly, S., An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 2020.

[美通社]

【免責聲明】本文僅代表作者個人觀點,與云財經(jīng)無關。其原創(chuàng)性以及文中陳述文字和內容未經(jīng)本站證實,云財經(jīng)對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

云財經(jīng)智能匹配相關概念