- 資訊與博客
商湯開源SenseNova-SI 1.3 八大空間智能榜綜合評測排名第一
商湯科技正式開源空間智能模子日日新 SenseNova-SI-1.3,,,,,,在空間測量、視角轉換、綜合推理等焦点任務中表現顯著提升,,,,,,對比以往的版本,,,,,,回覆簡短非選擇題的能力亦較強。。。。。。。。在集成多項權威空間智能榜單的綜合評測平台 EASI 上,,,,,,SenseNova-SI-1.3 綜合性能逾越 Gemini-3-Pro,,,,,,平均分在 EASI-8(八個權威空間智能榜單的混淆評測)標準中排名第一,,,,,,在多個高難度空間任務中,,,,,,尤其是視角轉換任務,,,,,,表現優異。。。。。。。。

引領空間智能 普惠生態
商湯致力突破技術壁壘,,,,,,讓頂尖空間智能技術惠及更多開發者與企業。。。。。。。。對科研人員而言,,,,,,SenseNova-SI-1.3 透過在空間智能上驗證數據标准效應,,,,,,提供了一個與現有基座模子完全相容,,,,,,但又長於空間智能的強力預訓練模子和基線(SenseNova-SI 已被 VSI-Bench, MMSI-Bench 等權威榜單官方收錄),,,,,,可以直接在其之上設計創新演算法或續訓,,,,,,推動空間智能向人類水平邁進。。。。。。。。
對企業來說,,,,,,可直接基於 SenseNova-SI-1.3 ,,,,,,將科技计划快速落地應用,,,,,,縮短研發週期、降低技術門檻。。。。。。。。
對通俗用戶而言,,,,,,未來將有更多搭載先進空間智能的產品走進生涯 —— 從智能家電到自動駕駛,,,,,,從工業機器人到教育設備,,,,,,都將更懂 「空間邏輯」、更貼合實際需求。。。。。。。。
開源地点
SenseNova-SI 模子家族:https://huggingface.co/collections/sensenova/sensenova-si
SenseNova-SI 開源代碼:https://github.com/OpenSenseNova/SenseNova-SI
Discord 社群邀請碼:https://discord.gg/WBzH62bk
SenseNova-SI 入群碼
「刁鑽」題目驗證:
SenseNova-SI 1.3精準解答空間智能焦点難題
EASI-8 包括一系列專門审核空間明确能力的高難度測試題,,,,,,以下為 SenseNova-SI-1.3及Gemini-3-Pro等模子在部分難題的表現(下列問題在測試模子時使用的原題為英文,,,,,,為利便讀者明确翻譯為中文)。。。。。。。。

題目:統計兩張照片中建築模子的總數量。。。。。。。。
解題:焦点難點是明确兩張圖的對應關係,,,,,,以此阻止因為物件被遮擋而漏算,,,,,,或因物件重複而多算。。。。。。。。右圖視角下顯現出左圖中被遮擋的深灰色建築,,,,,,且部分模子在兩圖中重複出現。。。。。。。。Gemini-3-Pro 未完全去重,,,,,,誤數為「 6 個」;;;;;SenseNova-SI-1.3 則得出 「4 個」 的準確谜底。。。。。。。。

題目:圖為兩張分別顯示書房部分環境的照片,,,,,,已知 iMac 位於房間北邊,,,,,,需判斷學生寫作業的區域在什麼方位。。。。。。。。
解題:需先明确兩張圖片屬於统一空間,,,,,,再透過視覺線索拼接場景。。。。。。。。Gemini-3-Pro 誤判學習區在西側;;;;;SenseNova-SI-1.3 精準判斷為 「西北角」,,,,,,完全切合空間邏輯。。。。。。。。

題目:以沒有戴眼鏡男士的視角,,,,,,判斷其身旁戴眼鏡男士身處他的什麼方位。。。。。。。。
解題:考察 「參照系轉換」 能力,,,,,,模子很容易以「觀察者視角」來判斷偏向。。。。。。。。Gemini-3-Pro誤選了 「右邊」;;;;;SenseNova-SI-1.3 則正確選擇「左邊」。。。。。。。。

題目:圖中四張圖片分別顯示粉紅色瓶子的前、後、左、右方,,,,,,按第四張圖片的視角,,,,,,判斷瓶子左側是什麼。。。。。。。。
解題:這道題需整合多視角線索重構房間全局结构,,,,,,再切換至目標視角判斷方位 —— 第四張照片中瓶子左側完全處於視覺盲區,,,,,,僅能透過前三張圖中的窗戶、床、衣櫃等線索還原空間關係。。。。。。。。Gemini-3-Pro 誤選 「窗戶和藍色窗簾」,,,,,,SenseNova-SI-1.3則鎖定正確谜底 「衣櫃和門」。。。。。。。。

題目:圖中央巴士哪一邊車身對著車站??????
解題:以雙層巴士與公車站的場景為題,,,,,,需阻止陷入「英國巴士靠左行駛,,,,,,因此靠站的是左側」的常識陷阱,,,,,,而是透過實際的視覺畫面判斷方位。。。。。。。。Gemini-3-Pro 誤判 「左側」 為谜底;;;;;而 SenseNova-SI-1.3 則準確明确 「右側」 為正確谜底。。。。。。。。
解構空間智能──極獨特多模態能力

Core Knowledge Deficits in Multi-Modal Language Models (2025) 發現視角轉換任務與其它多模態任務的相關性(紅框內)呈藍色,,,,,,即代表相關性較低
一篇 2025 年發表於機器學習頂會 ICML 的論文《Core Knowledge Deficits in Multi-Modal Language Models》展现了一個有趣的發現:視角轉換(Perspective)和所有傳統多模態模子的能力的相關性均異常得低,,,,,,這代表學主流算法路徑可能不是空間智能的形成的有用路徑,,,,,,這也解釋了為什麼領先的多模態大模子在空間智能相關的任務上表現不佳。。。。。。。。

Core Knowledge Deficits in Multi-Modal Language Models (2025) 發現增大模子尺寸對提升視角轉換任務效果不佳
這篇論文也發現,,,,,,空間智能似乎保存反标准效應的現象:更大的模子並不可更好地解決空間智能任務。。。。。。。。另外,,,,,,在 EASI 的官方報告中也可以找到相似的形貌,,,,,,指出視角轉換任務(Perspective-taking)依然是最具挑戰的基礎能力之一。。。。。。。。
空間智能需要全新的學習範式
3D 天下數據匱乏到空間智能的标准效應
空間智能的焦点 —— 視角轉換任務被拆解成了三個關鍵步驟:建设跨視角關聯、明确視角移動、想像視角變換,,,,,,並圍繞著解決這三個基礎能力構造大宗訓練數據
學術界現有數據集多著重於目標識別與場景明确,,,,,,模子往往停留在圖像模式匹配階段,,,,,,難以形成穩定的空間明确能力。。。。。。。;;;;;哆@一洞察,,,,,,想要解決空間智能,,,,,,尤其是視角轉換任務,,,,,,簡單擴充相關數據規模並缺乏夠,,,,,,為相识决這一基础問題,,,,,,商湯團隊將視角轉換看作從二維視覺資訊邁向三維空間關係明确的關鍵橋樑,,,,,,並將其拆解為遞進的能力階段,,,,,,由易到難、難度遞增的三個任務層級(建设跨視角關聯、明确視角移動、想像視角變換),,,,,,並構造大宗且層次明确的訓練數據,,,,,,使模子建设完備的空間明确能力。。。。。。。。
同時,,,,,,在數據規模持續擴大的過程中,,,,,,SenseNova-SI 團隊挖掘並重組多視角學術數據資源,,,,,,將許多過去未被充分使用的標註轉化為視角轉換訓練數據。。。。。。。。例如,,,,,,多目關聯數據集 MessyTable 提供了高物體複雜度場景,,,,,,其中跨視角物體一致性資訊與精確的相機位姿標註,,,,,,可用於訓練物體對應與相機運動推理能力;;;;;而部分室內場景掃描數據如 CA-1M 中包括物體自身朝向標註的樣本,,,,,,則被用於補充模子進行視角轉換與想像所需的稀缺數據。。。。。。。。這種跨數據源的重組與再使用,,,,,,使積累大宗豐富而系統的空間明确數據成為可能。。。。。。。。

空間智能的标准效應:SenseNova-SI 在視角轉換任務上逾越 GPT-5
大規模高品質的空間智能數據在 SenseNova-SI 團隊的手中最終驗證了空間智能的标准效應:SenseNova-SI 的 8B 參數基模子最終逾越了強閉源模子如 GPT-5,,,,,,而 2B 參數的小模子也表現不俗,,,,,,在相同數據規模下,,,,,,甚至逾越了紐約大學的 Cambrian-S 和字節的 VST 兩個 7B 參數的模子。。。。。。。。

只在 Ego-Exo4D 上訓練第一 / 第三人稱視角匹配的模子可以大幅提升 (+90.4%) 在 MMSI 的 2D 迷宮導航問題上的表現
更有趣的是,,,,,,團隊在研究中似乎發現了一些智能湧現的先兆:一些看起來毫無關聯,,,,,,但也許細想之下有底層能力聯繫的任務,,,,,,可以協同發展。。。。。。。。另外,,,,,,團隊也發現在視角轉換任務上訓練的模子也可以增強如心智重修(Mental Reconstruction)、綜合空間推理(Comprehensive Reasoning)等能力。。。。。。。。

SenseNova-SI 在具身任務上的探索了空間智能的主要性






返回