- 資訊與博客
從「數據融合」邁向「原生架構」: 商湯發布 NEO 架構,,,,,,,,重新定義多模態模子效能邊界
商湯科技正式發布並開源了與南洋理工大學S-Lab相助研發的全新多模態模子架構 —— NEO,,,,,,,,為日日新SenseNova 多模態模子涤讪了新一代架構的基石。。。。。。。
作為行業首個可用的、實現深層次融合的原生多模態架構(Native VLM),,,,,,,,NEO 從底層原理出發,,,,,,,,突破了傳統「模組化」範式的桎梏,,,,,,,,以「專為多模態而生」的創新設計,,,,,,,,通過焦点架構層面的多模態深層融合,,,,,,,,實現了性能、效率和通用性的整體突破,,,,,,,,重新定義了多模態模子的效能邊界,,,,,,,,標誌著人工智能多模態技術正式邁入「原生架構」的新時代。。。。。。。

論文網址:https://arxiv.org/abs/2510.14979
Github 开源網址:https://github.com/EvolvingLMMs-Lab/NEO
突破瓶頸,,,,,,,,告別「拼湊」,,,,,,,,擁抱「原生」

當前,,,,,,,,業內主流的多模態模子大多遵照「視覺編碼器+投影器+語言模子」的模組化範式。。。。。。。這種基於大語言模子(LLM)的擴展方法,,,,,,,,雖然實現了圖像輸入的兼容,,,,,,,,但本質上仍以語言為中心,,,,,,,,圖像與語言的融合僅停留在數據層面。。。。。。。這種「拼湊」式的設計不僅學習效率低下,,,,,,,,更限制了模子在複雜多模態場景下(好比涉及圖像細節捕获或複雜空間結構明确)的處理能力。。。。。。。
商湯NEO 架構正是為相识決這一痛點而生。。。。。。。早在2024 年下半年,,,,,,,,商湯便在國內率先突破多模態原生融合訓練技術,,,,,,,,以單一模子在 SuperCLUE 語言評測 和 OpenCompass 多模態評測中奪冠,,,,,,,,並基於這一焦点技術打造了日日新 SenseNova 6.0,,,,,,,,實現多模態推理能力領先。。。。。。。
之後,,,,,,,,在2025 年 7 月發布日日新 SenseNova 6.5 通過實現編碼器層面的早期融合,,,,,,,,把多模態模子性價比提升 3 倍,,,,,,,,並在國內率先推出商用級別的圖文交錯推理。。。。。。。商湯此次更進一步,,,,,,,,徹底摒棄了傳統的模組化結構,,,,,,,,從底層原理出發,,,,,,,,推出了從零設計的 NEO 原生架構。。。。。。。
三大內核創新,,,,,,,,實現視覺和語言的深層統一

NEO 架構以極致效率和深度融合為焦点理念,,,,,,,,通過在注重力機制、位置編碼和語義映射三個關鍵維度的底層創新,,,,,,,,讓模子天生具備了統一處理視覺與語言的能力:
原生圖塊嵌入(Native Patch Embedding): 摒棄了離散的圖像tokenizer,,,,,,,,通過獨創的 Patch Embedding Layer (PEL) 自底向上構建從像素到詞元的連續映射。。。。。。。這種設計能更精細地捕获圖像細節,,,,,,,,從基础上突破了主流模子的圖像建模瓶頸。。。。。。。
原生三維旋轉位置編碼(Native-RoPE): 創新性地解耦了三維時空頻率分派,,,,,,,,視覺維度採用高頻、文本維度採用低頻,,,,,,,,完善適配兩種模態的自然結構。。。。。。。這使得NEO 不僅能精准捕獲圖像的空間結構,,,,,,,,更具備向視頻處理、跨幀建模等複雜場景無縫擴展的潛力。。。。。。。
原生多頭注重力(Native Multi-Head Attention): 針對差别模態特點,,,,,,,,NEO 在統一框架下實現了文本 token 的自回歸注重力和視覺 token 的雙向注重力並存。。。。。。。這種設計極大地提升了模子對空間結構關聯的使用率,,,,,,,,從而更好地支撐複雜的圖文混淆明确與推理。。。。。。。
别的,,,,,,,,配合創新的Pre-Buffer & Post-LLM 雙階段融合訓練战略,,,,,,,,NEO 能夠在吸收原始 LLM 完整語言推理能力的同時,,,,,,,,從零構建強大的視覺感知能力,,,,,,,,徹底解決了傳統跨模態訓練中語言能力受損的難題。。。。。。。
實測表現:十分之一的數據,,,,,,,,追評旗艦級性能
在架構創新的驅動下,,,,,,,,NEO 展現出了驚人的數據效率與性能優勢:
極高數據效率:僅需業界一律性能模子1/10 的數據量(3.9億圖像文本示例),,,,,,,,NEO 便能開發出頂尖的視覺感知能力。。。。。。。無需依賴海量數據及額外視覺編碼器,,,,,,,,其簡潔的架構便能在多項視覺明确任務中追平 Qwen2-VL、InternVL3 等頂級模組化旗艦模子。。。。。。。
性能卓越且平衡:在MMMU、MMB、MMStar、SEED-I、POPE 等多項公開權威評測中,,,,,,,,NEO 架構均斬獲高分,,,,,,,,展現出優於其他原生 VLM 的綜合性能,,,,,,,,真正實現了原生架構的「精度無損」。。。。。。。
極致推理性價比:特別是在0.6B-8B 的參數區間內,,,,,,,,NEO 在邊緣安排方面優勢顯著。。。。。。。它不僅實現了精度與效率的雙重躍遷,,,,,,,,更大幅降低了推理本钱,,,,,,,,將多模態視覺感知的「性價比」推向了極致。。。。。。。
开源共建,,,,,,,,構建下一代AI基礎設施






返回