- ニュース
総合評価で8大ランキングの首位を獲得!センスタイムがオープンソース公開した SenseNova-SI-1.3、空間知能のスケール効果に突破
センスタイムは、空間知能モデル「日日新 SenseNova-SI-1.3」を正式にオープンソースとして公開しました。。。。。????????臻g測定、視点変換、総合推論などのコアタスクにおいて顕著な向上を示しており、さらに従来バージョンと比べて簡答式問題への回覆能力も強化されています。。。。。。
複数の権威ある空間知能ランキングを統合した総合評価プラットフォームEASIにおいて、SenseNova-SI-1.3の総合性能はGemini-3-Proを上回り、平均スコアでEASI-8(8つの権威ある空間知能ランキングを統合した評価)の第1位を獲得しました。。。。。。また、複数の高難度空間タスク(特に視点変換)において優れた性能を示しています。。。。。。

難問による検証:SenseNova-SI-1.3 が空間知能の焦点的難点を正確に突破
EASI-8 には、空間明确能力を検証するための一連の高難度テスト問題が含まれており、Gemini-3-Pro などのモデルも頻繁に誤答しています。。。。。。では、SenseNova-SI-1.3 はどのような結果を示したのでしょうか。。。。。。(以下の問題はテスト時の原文が英語であり、読者の明确のため中国語に翻訳されたものをさらに日本語に訳したものです。。。。。。)

問題では、2枚の写真に写る建築模子の総数を数えることが求められています。。。。。。焦点的な難点は、2枚の画像の対応関係を明确し、それによって遮蔽による数え漏れや重複カウントを避けることです。。。。。。図2の視点では、図1で隠れていた濃い灰色の建物が現れており、また一部の模子は両方の画像に重複して写っています。。。。。。Gemini-3-Pro は完全に重複を除去できず、6個と誤って数えました。。。。。。一方、SenseNova-SI-1.3 は「4個」という正確な答えを示しました。。。。。。

別の問題では、書斎の一部を撮影した2枚の写真が与えられ、iMac が部屋の北側にあることが分かっています。。。。。。学生が宿題をするエリアの方位を尋ねる問題です。。。。。。まず2枚の画像が统一空間に属していることを明确し、その後視覚的な手がかりによってシーンを結合する须要があります。。。。。。Gemini-3-Proは学習エリアが西側にあると誤判断しました。。。。。。SenseNova-SI-1.3 は「北西の角」と正確に定位し、空間的な論理に完全に一致しました。。。。。。

別の問題では、「眼鏡をかけていない男性の自身の視点」から、隣にいる眼鏡をかけた男性の方位を判断することが求められています。。。。。。これは「参照座標系の変換」能力を試す問題であり、モデルは容易に「観察者視点」で偏向を判断してしまいがちです。。。。。。Gemini-3-Pro は「右側」と誤答しました。。。。。。SenseNova-SI-1.3 は正しく「左側」と答えました。。。。。。

さらに、ピンク色のボトルの前?後?左?右の4枚の写真が与えられ、図4の視点においてボトルの左側にある物体を尋ねる問題もあります。。。。。。この問題では、複数の視点から得られる手がかりを統合して部屋全体のレイアウトを再構築し、その後目標の視点に切り替えて方位を判断する须要があります。。。。。。第4枚の写真ではボトルの左側が完全に視覚の死角となっており、前の3枚の写真に写る窓、ベッド、クローゼットなどの手がかりを通じて空間関係を復元する须要がありますGemini-3-Proは「窓と青いカーテン」を誤って選択しました。。。。。。SenseNova-SI-1.3は正確に正解である「クローゼットとドア」を特定しました。。。。。。

二階建てバスとバス停の場面を題材にした問題では、「イギリスでは左側通行であるため、停車するのは左側である」という常識的な思い込みの罠を避け、実際の視覚情報に基づいて方位を判断する须要があります。。。。。。Gemini-3-Proは「左側」と誤判断しました。。。。。。SenseNova-SI-1.3は正確に「右側」と明确しました。。。。。。
空間知能は極めて奇异なマルチモーダル能力

2025年の論文 「Core Knowledge Deficits in Multi-Modal Language Models」 では、視点変換タスクと他のマルチモーダルタスクとの相関(赤枠内)が青色で示されており、これは相関が低いことを意味しています。。。。。。
2025年に機械学習分野のトップカンファレンス ICMLで発表された論文「Core Knowledge Deficits in Multi-Modal Language Models」は、興味深い発見を示しました。。。。。。それによると、視点変換(Perspective)と従来のマルチモーダルモデルの各種能力との相関は破例的に低いことが分かりました。。。。。。これは、現在主流となっているアルゴリズムの発展経路が、空間知能の形成にとって有効なアプローチではない可能性を示唆しています。。。。。。また、このことは、最先端のマルチモーダル大規模モデルが空間知能に関連するタスクで十分な性能を発揮できていない理由の一つを説明するものでもあります。。。。。。

2025年の論文 「Core Knowledge Deficits in Multi-Modal Language Models」 では、モデルサイズを拡大しても視点変換タスクの性能向上にはあまり効果がないことが指摘されています。。。。。。
この論文ではさらに、空間知能にはいわゆる「反スケーリング効果」のような現象が保存する可能性が示唆されています。。。。。。つまり、モデルが大きくなっても空間知能タスクをより良く解決できるとは限らないということです。。。。。。また、EASI の公式レポートでも同様の指摘が見られ、視点変換タスク(Perspective-taking)は依然として最も困難な基礎能力の一つであるとされています。。。。。。空間知能には、新しい学習パラダイムが须要です。。。。。。
3D天下データの缺乏から空間知能のスケール効果へ

空間知能の焦点である視点変換タスクは、次の3つの主要なステップに剖析されています。。。。。。「視点間の関連付けの構築、視点移動の明确、視点変換の想像」これら3つの基礎能力を中心に、大宗の訓練データが構築されました。。。。。。
学術界の既存データセットは主に物体認識やシーン明确に焦点を当てており、モデルは画像パターンマッチングの段階にとどまりやすく、安定した空間明确能力を形成することが難しいとされています。。。。。。この洞察に基づくと、空間知能、特に視点変換のタスクを解決するには、関連データの規模を単純に拡大するだけでは不十分です。。。。。。
この基础的な問題を解決するために、私たちは視点の変換を2次元の視覚情報から3次元の空間関係の明确に向かう主要な橋渡しと見なし、それを段階的な能力として剖析し、易しいものから難しいものへと難易度を増す3つのタスクレベル(視点間の関連を確立する、視点の移動を明确する、視点の変換を想像する)に分け、大宗かつ階層的に明確なトレーニングデータを構築し、モデルが完全な空間明确能力を確立できるようにしました。。。。。。
同時にデータ規模を拡大する過程で、多視点の学術データ資源を再発掘?再構成しました。。。。。。過去に十分に活用されなかった多くの注釈を視点変換の訓練データに変換する。。。。。。例えば、多くの関連データセットである MessyTable は、高い物体複雑度のシーンを提供しており、視点をまたいだ物体の一貫性情報と正確なカメラ姿勢のアノテーションがあり、物体対応やカメラ動作推論能力の訓練に使用できます。。。。。。一方、CA-1M などの一部室内シーンのスキャンデータには、物体自身の向きのアノテーションが付いたサンプルが含まれており、モデルが視点変換や想像に须要な希少データを補完するために使用されています。。。。。。このような異なるデータソースの再編成と再使用によって、系统的で豊富な空間明确データの蓄積が可能になりました。。。。。。

空間知能のスケール効果:大規模で高品質な空間知能データによって、SenseNova-SI チームは空間知能のスケール効果を検証しました。。。。。。
大規模で高品質な空間インテリジェンスデータは、SenseNova-SIチームの手によって最終的に空間インテリジェンスのスケール効果を検証しました:SenseNova-SIの8Bパラメータ基礎モデルは、最終的にGPT-5のような強力なクローズドソースモデルを超え、一方、2Bパラメータの小規模モデルも優れた性能を示し、同じデータ規模では、ニューヨーク大学のCambrian-SやバイトのVSTという2つの7Bパラメータモデルさえも上回りました。。。。。。

Ego-Exo4Dで第一人称/第三人称視点マッチングのモデルだけを訓練することで、MMSIの2D迷路ナビゲーション課題における性能を大幅に向上させることができます(90.4%)。。。。。。
さらに興味深いことに、チームは研究でいくつかの知能の出現の兆候を発見したようです。。。。。。一見無関係に見えるが、よく考えると基礎能力に関連しているかもしれないタスクが協調して発展することができます。。。。。。また、チームは視点変換タスクで訓練されたモデルは、心的再構成(Mental Reconstruction)や総合的空間推論(Comprehensive Reasoning)などの能力も強化できることを発見しました。。。。。。
センスタイムが空間知能の普及エコシステムを推進
SenseNova-SI-1.3 のアップグレード公開の配景には、最先端の空間知能技術をより多くの開発者と企業に提供するというセンスタイムの取り組みがあります。。。。。。
研究者にとって、SenseNova-SI-1.3 は空間知能のスケール効果を検証する強力な事前学習モデルおよびベースラインであり、既存の基盤モデルとも完全に互換性を持っています。。。。。。(SenseNova-SI はすでにVSI-Bench、MMSI-Benchなどの権威あるランキングに公式収録されています。。。。。。)
企業にとっては、SenseNova-SI-1.3 を基盤としてアプリケーションを迅速に実装でき、開発周期を短縮し、技術導入のハードルを下げることができます。。。。。。
一样平常ユーザーにとっては、今後より多くの製品が高度な空間知能を搭載するようになるでしょう。。。。。。
スマート家電、自動運転、産業ロボット、教育機器などが、より「空間ロジック」を明确し、実際のニーズに適応したものになっていきます。。。。。。

SenseNova-SIはエンボディドAIタスクにおける空間知能の主要性を寻找した
オープンソースリンク
SenseNova-SI モデルファミリー
https://huggingface.co/collections/sensenova/sensenova-si
SenseNova-SI オープンソースコード
https://github.com/OpenSenseNova/SenseNova-SI
Discord コミュニティ招待リンク
https://discord.gg/WBzH62bk



リターンマッチ