- 資訊與博客
商湯科技開源SenseNova-MARS 模態搜索推理能力創新高
商湯今日正式開源多模態自主推理模子 SenseNova-MARS(提供 8B 與 32B 版本),,,,,在多個多模態搜尋與推理的焦点基準測試中平均取得 69.74 分,,,,,逾越Gemini-3-Pro(69.06 分)和GPT-5.2(67.64 分)。。。。。
SenseNova-MARS 是首個同時支援動態影像推理與圖文搜尋的開源 Agentic VLM 模子,,,,,能自主規劃步驟、調用工具,,,,,輕鬆處理各類複雜任務,,,,,令人工智能真正具備「執行能力」。。。。。
在 MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基準測試中,,,,,SenseNova-MARS的表現領先開源模子,,,,,還逾越 Gemini?3.0?Pro、GPT?5.2 等頂級閉源模子,,,,,於搜尋推理及視覺明确兩大焦点領域周全領跑。。。。。
詳情請參閱技術報告(https://arxiv.org/abs/2512.24330),,,,,歡迎開發者及行業用家進行測試與體驗。。。。。
自主解決複雜問題 周全領先
SenseNova?MARS 在多項多模態搜索評測中展現明顯領先優勢,,,,,平均得分達 69.74 分,,,,,逾越 Gemini?3?Pro 的 69.06 分與 GPT?5.2 的 67.64 分。。。。。

SenseNova-MARS在 MMSearch 榜單(圖文搜索焦点評測)中,,,,, 以74.27分與Gemini-3-Pro(74.27 分)一同成為榜首,,,,, 逾越 GPT-5.2(66.08 分);;;;;;;SenseNova-MARS亦在HR-MMSearch(高清細節搜索評測)中 以54.43 分領先,,,,,拋離閉源模子。。。。。

HR?MMSearch 的測試題目堪稱「AI 界的奧林匹克」:採用 305 張 2025 年最新的 4K 超高清圖片,,,,,阻止 AI 依賴舊知識「作弊」; 所有問題都針對圖片中不到 5% 的細節,,,,,如小標誌、小字、细小物體,,,,,必須使用裁剪工具才华看清; 涵蓋體育、娛樂文化、科學技術、商業金融、遊戲、學術研究、地理旅行等八大領域; 60% 的問題需要至少三種工具才华解答
簡單而言,,,,,無論是需要「查遍全網」的知識麋集型任務,,,,,還是需要「金睛火眼」的細緻視覺剖析,,,,,SenseNova MARS均表現領先。。。。。
多工具協作 解決真實場景問題
一样平常 AI只能搜尋文字或看圖片,,,,,無法處理需要「先放大細節、再識別物體、最後查配景」的複雜任務。。。。。SenseNova-MARS 則能夠解決需要「多步驟推理 + 多工具協作」的問題,,,,,在生涯和事情場景中落地應用。。。。。
以下為SenseNova?MARS自主思索及解答基準試題目的步驟: 
面對‘識別賽車服细小標誌 + 搜尋公司建设年份 + 搜尋車手出生年月 + 計算兩者差别的複雜任務,,,,,SenseNova-MARS 可自主調用圖像裁剪、文本 / 圖像搜索工具,,,,,無需人工干預便完成閉環解答。。。。。
SenseNova-MARS能從産品和行業峰會的照片中,,,,,識別企業的標誌,,,,,快速搜集産品、企業的信息,,,,,以及時間、數量、參數等細節要素,,,,,輔助剖析行業情形和名堂。。。。。

SenseNova-MARS能從賽事照片中識別畫面中的標誌、人物等信息,,,,,追溯比賽某人員配景信息,,,,,快速補充報道細節。。。。。

SenseNova-MARS亦能够處理這類超長步驟的多模態推理任務,,,,,並調用超過三種工具,,,,,自動裁剪剖析細節、搜索相關研究數據、快速驗證假設,,,,,以得出關鍵判斷。。。。。
SenseNova-MARS擁有「自主思索+多工具協作」能力,,,,,能自動解决「細節識別 + 信息檢索 + 邏輯推理」的複雜任務,,,,,提升事情效率。。。。。
l 圖像裁剪:能精準聚焦圖片上的细小細節,,,,,包括佔比不到5%的細節——如賽車手衣服上的细小logo、賽事照片中觀衆席的標語等,,,,,均可透過裁剪、放大,,,,,清晰剖析。。。。。
l 圖像搜索:能看見物體、人物或場景,,,,,迅速自動匹配相關信息——如識別賽車手的身份,,,,,或某款冷門設備的型號。。。。。
l 文本搜索:能快速抓取精準信息——秒級搜索出公司建设年份、人物出生年月、最新行業數據等。。。。。
為AI培養「直覺」、儲「經驗」
SenseNova-MARS 採用了「因材施教」的訓練要领。。。。。
第一階段:打穩基礎。。。。。針對跨模態多跳搜索推理訓練數據稀缺的痛點,,,,,創新性的提出了基於多模智能體的自動化數據合成引擎,,,,,採用細粒度視覺錨點 + 多跳深度關聯檢索的機制,,,,,動態挖掘並關聯跨網頁實體的邏輯,,,,,自動化構建高複雜度的多跳推理鏈路,,,,,同時引入閉環自洽性校驗來去除幻覺數據,,,,,構造出具備嚴密邏輯鏈條與高知識密度的多跳搜索問答數據。。。。。用 3,000 個全心篩選的「高難度案例」作為课本,,,,,確保 AI 一開始就接觸真實複雜場景,,,,,每個案例都標註了「該用什麼工具、步驟是什麼」,,,,,讓 AI 先學會基本的「破案邏輯」。。。。。
第二階段:儲實戰經驗。。。。。採用「強化學習」—— 就像偵探在一次次破案中積累經驗,,,,,AI 每做對一次決策(如選對工具、步驟合理)就會獲得獎勵,,,,,做錯了就調整战略。。。。。為了阻止 AI「學偏」,,,,,研究團隊還加了個「穩定器」——BN-GSPO 算法,,,,,讓它在處理簡單題和複雜題時都能坚持穩定進步,,,,,不會出現「偏科」。。。。。 這種基於雙階段歸一化的優雅機制有用平滑了動態工具調用返回分佈多樣性帶來的優化波動,,,,,並確保了學習信號分佈的一致性,,,,,從而乐成解決了跨模態多步多工具智能體訓練過程中的收斂性難題。。。。。
模子、代碼、數據全開源
商湯日日新SenseNova-MARS模子、代碼、數據集全數開源,,,,,支持 Hugging Face 直接下載。。。。。
Github 倉庫:https://github.com/OpenSenseNova/SenseNova-MARS
模子倉庫:
· 32B:https://huggingface.co/sensenova/SenseNova-MARS-32B
· 8B:https://huggingface.co/sensenova/SenseNova-MARS-8B
技術報告(點擊「View PDF」):https://arxiv.org/abs/2512.24330






返回