技術能力

以原創技術體係為基本，，，，，，，，SenseCore商湯AI大裝置為焦点基座，，，，，，，，佈局多領域、多偏向前沿研究，，，，，，，，快速买通AI在各個笔直場景中的應用，，，，，，，，向行業賦能。。。。。。。

相识所有案例

商湯研究

商湯研究始終堅持原創，，，，，，，，不斷突破創新。。。。。。。具有人工智能領域深挚的學術積累，，，，，，，，具備健全的人才培養機制，，，，，，，，已與國內外五十餘所一流高校和科研院所建设了深度相助關係，，，，，，，，並與眾多行業同仁齊心共建AI生態圈。。。。。。。

申請試用

相识所有案例

相识所有產品服務

商湯日日新大模子 SenseNova

商湯日日新大模子SenseNova，，，，，，，，可以提供自然語言處理、圖片天生、自動化數據標注、自定義模子訓練等多種大模子及能力。。。。。。。

申請試用

相识所有案例

相识所有產品服務

SenseME 水星智能移動終端平台

我們的SenseME 水星智能移動終端平台提供包括SDK、AI傳感器和ISP芯片等全套產品，，，，，，，，能夠支持諸多物聯網設備，，，，，，，，以促進感知智能和內容增強

申請試用

相识所有案例

相识所有產品服務

SenseMARS 火星混淆現實平台

SenseMARS平台通過對物理天下的數字重修、虛擬化身和軟件智能體，，，，，，，，創造全新的陶醉式和交互式的元宇宙體驗

申請試用

相识所有案例

相识所有產品服務

商湯教育

打造領先AI教育體系，，，，，，，，落實國家發展戰略

申請試用

相识所有案例

相识所有產品服務

資訊與博客

< 返回資訊與博客

從「數據融合」邁向「原生架構」：商湯發布 NEO 架構，，，，，，，，重新定義多模態模子效能邊界

2025-12-01

商湯科技正式發布並開源了與南洋理工大學S-Lab相助研發的全新多模態模子架構 —— NEO，，，，，，，，為日日新SenseNova 多模態模子涤讪了新一代架構的基石。。。。。。。

作為行業首個可用的、實現深層次融合的原生多模態架構（Native VLM），，，，，，，，NEO 從底層原理出發，，，，，，，，突破了傳統「模組化」範式的桎梏，，，，，，，，以「專為多模態而生」的創新設計，，，，，，，，通過焦点架構層面的多模態深層融合，，，，，，，，實現了性能、效率和通用性的整體突破，，，，，，，，重新定義了多模態模子的效能邊界，，，，，，，，標誌著人工智能多模態技術正式邁入「原生架構」的新時代。。。。。。。

图片1 1203.png

論文網址：https://arxiv.org/abs/2510.14979

Github 开源網址：https://github.com/EvolvingLMMs-Lab/NEO

突破瓶頸，，，，，，，，告別「拼湊」，，，，，，，，擁抱「原生」

图片2 1203.png

當前，，，，，，，，業內主流的多模態模子大多遵照「視覺編碼器+投影器+語言模子」的模組化範式。。。。。。。這種基於大語言模子（LLM）的擴展方法，，，，，，，，雖然實現了圖像輸入的兼容，，，，，，，，但本質上仍以語言為中心，，，，，，，，圖像與語言的融合僅停留在數據層面。。。。。。。這種「拼湊」式的設計不僅學習效率低下，，，，，，，，更限制了模子在複雜多模態場景下（好比涉及圖像細節捕获或複雜空間結構明确）的處理能力。。。。。。。

商湯NEO 架構正是為相识決這一痛點而生。。。。。。。早在2024 年下半年，，，，，，，，商湯便在國內率先突破多模態原生融合訓練技術，，，，，，，，以單一模子在 SuperCLUE 語言評測和 OpenCompass 多模態評測中奪冠，，，，，，，，並基於這一焦点技術打造了日日新 SenseNova 6.0，，，，，，，，實現多模態推理能力領先。。。。。。。

之後，，，，，，，，在2025 年 7 月發布日日新 SenseNova 6.5 通過實現編碼器層面的早期融合，，，，，，，，把多模態模子性價比提升 3 倍，，，，，，，，並在國內率先推出商用級別的圖文交錯推理。。。。。。。商湯此次更進一步，，，，，，，，徹底摒棄了傳統的模組化結構，，，，，，，，從底層原理出發，，，，，，，，推出了從零設計的 NEO 原生架構。。。。。。。

三大內核創新，，，，，，，，實現視覺和語言的深層統一

图片3 1203.png

NEO 架構以極致效率和深度融合為焦点理念，，，，，，，，通過在注重力機制、位置編碼和語義映射三個關鍵維度的底層創新，，，，，，，，讓模子天生具備了統一處理視覺與語言的能力：

原生圖塊嵌入(Native Patch Embedding)：摒棄了離散的圖像tokenizer，，，，，，，，通過獨創的 Patch Embedding Layer (PEL) 自底向上構建從像素到詞元的連續映射。。。。。。。這種設計能更精細地捕获圖像細節，，，，，，，，從基础上突破了主流模子的圖像建模瓶頸。。。。。。。

原生三維旋轉位置編碼(Native-RoPE)：創新性地解耦了三維時空頻率分派，，，，，，，，視覺維度採用高頻、文本維度採用低頻，，，，，，，，完善適配兩種模態的自然結構。。。。。。。這使得NEO 不僅能精准捕獲圖像的空間結構，，，，，，，，更具備向視頻處理、跨幀建模等複雜場景無縫擴展的潛力。。。。。。。

原生多頭注重力(Native Multi-Head Attention)：針對差别模態特點，，，，，，，，NEO 在統一框架下實現了文本 token 的自回歸注重力和視覺 token 的雙向注重力並存。。。。。。。這種設計極大地提升了模子對空間結構關聯的使用率，，，，，，，，從而更好地支撐複雜的圖文混淆明确與推理。。。。。。。

别的，，，，，，，，配合創新的Pre-Buffer & Post-LLM 雙階段融合訓練战略，，，，，，，，NEO 能夠在吸收原始 LLM 完整語言推理能力的同時，，，，，，，，從零構建強大的視覺感知能力，，，，，，，，徹底解決了傳統跨模態訓練中語言能力受損的難題。。。。。。。

實測表現：十分之一的數據，，，，，，，，追評旗艦級性能

在架構創新的驅動下，，，，，，，，NEO 展現出了驚人的數據效率與性能優勢：

極高數據效率：僅需業界一律性能模子1/10 的數據量（3.9億圖像文本示例），，，，，，，，NEO 便能開發出頂尖的視覺感知能力。。。。。。。無需依賴海量數據及額外視覺編碼器，，，，，，，，其簡潔的架構便能在多項視覺明确任務中追平 Qwen2-VL、InternVL3 等頂級模組化旗艦模子。。。。。。。

性能卓越且平衡：在MMMU、MMB、MMStar、SEED-I、POPE 等多項公開權威評測中，，，，，，，，NEO 架構均斬獲高分，，，，，，，，展現出優於其他原生 VLM 的綜合性能，，，，，，，，真正實現了原生架構的「精度無損」。。。。。。。

極致推理性價比：特別是在0.6B-8B 的參數區間內，，，，，，，，NEO 在邊緣安排方面優勢顯著。。。。。。。它不僅實現了精度與效率的雙重躍遷，，，，，，，，更大幅降低了推理本钱，，，，，，，，將多模態視覺感知的「性價比」推向了極致。。。。。。。

开源共建，，，，，，，，構建下一代AI基礎設施

您尚未完善信息

完善信息后，，，，，，，，即可下载资料

完善信息跳过，，，，，，，，继续浏览

您尚未登录

您还未登录，，，，，，，，登录方可继续

登录跳过，，，，，，，，继续浏览

请选择您以为需要刷新的地方：

导航欠好用，，，，，，，，不利便找到感兴趣的内容
产品先容信息不敷周全
产品先容信息禁止易懂
页面翻开速率烦懑，，，，，，，，页面浏览不流通/有卡顿
页面不敷雅观
售后效劳欠好找，，，，，，，，体验欠好

跳过下一个

您是否能够抵达本次网站的会见目的？？？？？？

是
否
仍在举行中

下一个

您对商汤官网的知足度怎样？？？？？？

很是不知足很是知足

提交

已收到您对商汤官网的评价和建议！

谢谢您的耐心反响~

关闭