- 資訊與博客
ICCV 2023天生式AI引人矚目 商湯多項技術突破展現中國「創新力」
2023年10月5日 ─全球人工智能計算機視覺領域頂級國際會議ICCV(International Conference on Computer Vision)於10月2日至6日在法國巴黎舉行。。。。。。作為全球計算機視覺三大頂級會議之一(其他兩大會議為CVPR及ECCV),,,,,,本屆ICCV投稿總數達8,068篇,,,,,,其中2,160篇被吸收,,,,,,錄用率為26.8%,,,,,,略高於上一屆ICCV 2021錄用率的25.9%。。。。。。
商湯科技及聯合實驗室共49篇論文入選,,,,,,涵蓋文生圖、3D數字人、自動駕駛、目標檢測、視頻支解等多個與大模子和天生式AI相關的熱門題目。。。。。;;;;;渡虦 AI 大裝置SenseCore和「日日新SenseNova」大模子體系,,,,,,商湯在天生式AI和視覺大模子等領域上,,,,,,提出了多項極具價值的技術突破和研究範式創新。。。。。。
商湯科技聯合創始人、首席科學家王曉剛体现:「持續深耕AI基礎設施建設、堅持做注重產業實踐的學術研究、深耕人才階梯式培養,,,,,,是商湯多年來在全球學術舞台上不斷產出創新效果的基石。。。。。。商湯將積極擁抱大模子帶來的全新研究範式,,,,,,不斷提升研發體系,,,,,,堅持將基礎研究與業務發展緊密融合,,,,,,為行業貢獻更具價值的技術效果。。。。。。」
多項技術突破和範式創新,,,,,,大模子和天生式AI成焦點
大模子和天生式AI在全球備受矚目,,,,,,也為學術研究提出了多個具有挑戰性的全新課題。。。。。。
在天生式AI方面的文生圖領域,,,,,,商湯研究團隊在《Human Preference Score: Better Aligning Text-to-Image Models with Human Preference》這篇論文中,,,,,,提出將人類偏好引入Stable Diffusion的模子訓練中,,,,,,證明人類偏好信息可以提升Stable Diffusion天生的圖像質量,,,,,,尤其是在人體、四肢等容易出現誤差的情況下,,,,,,展示了優異的效果。。。。。。

將人類偏好引入Stable Diffusion的模子訓練過程
數字人是天生式AI的主要領域,,,,,,但其製作依然需要一定門檻。。。。。。商湯研究團隊在《SHERF: Generalizable Human NeRF from a Single Image》這篇論文中,,,,,,提出了一種基於單張圖片的可泛化及可驅動人體神經輻射場要领,,,,,,僅需一張從恣意角度拍攝的3D人體圖片,,,,,,結合须要的參數,,,,,,就能實現3D數字人的重修和驅動,,,,,,有望簡化3D數字人的創作流程。。。。。。

基於單張圖片的人體神經輻射場重修和驅動
高質量的3D人體數據集是研究眾多人體相關的感知模子、重修模子和天生式AI的基礎。。。。。。商湯研究團隊在《SynBody: Synthetic Dataset with Layered Human Models for 3D Human Perception and Modeling》此論文中,,,,,,提出了一個合成數據集SynBody,,,,,,其構建了穿著衣物的參數化人體模子,,,,,,並天生了海量的人體虛擬數據,,,,,,有助於3D人體感知和重修的模子訓練。。。。。。别的,,,,,,團隊公佈了開源代碼庫XRFeitoria,,,,,,這是一個合成數據渲染工具箱,,,,,,通過提供利便的Python API與CLI工具,,,,,,極大簡化了製作虛擬數據集的流程。。。。。。

SynBody是基於分層人體模子的大規模合成數據集,,,,,,可用於人體感知與建模等任務
在自動駕駛場景的3D目標檢測領域,,,,,,商湯團隊還在《Temporal Enhanced Training of Multi-view 3D Object Detector via Historical Object Prediction》此論文中,,,,,,提出了一種全新用於多視角3D檢測的時序增強訓練方法─歷史幀物體預測(Historical Object Prediction, HoP),,,,,,不僅在nuScenes測試集上使用ViT-L获得了68.5%NDS和62.4% mAP,,,,,,超過了排行榜上所有3D物體檢測器,,,,,,還可以「即插即用」,,,,,,無縫集成到最先進的 BEV 檢測框架中,,,,,,重塑了3D檢測時序使用的新範式。。。。。。

HoP算法框架圖
别的,,,,,,在本屆ICCV上,,,,,,商湯科技還在目標檢測、視頻支解、3D感知與重修、半監督學習、NeRF等領域取得多項技術創新突破,,,,,,中國原創技術持續引領人工智能行業。。。。。。
開源開放,,,,,,構建大模子時代產學研協同新生態
要將學術研究效果轉化為實際行業應用,,,,,,離不開業界、學校及科研機構三方的相助。。。。。。商湯科技在不斷鞏固技術研究的同時,,,,,,也積極參與和舉辦各類學術交流和競賽活動,,,,,,推動創新效果的轉化,,,,,,探索大模子時代下產學研協作模式的構建。。。。。。
與此同時,,,,,,商湯長期致力於推動AI基礎設施和開源生態的建設,,,,,,與開發者共創共建,,,,,,配合推動AI社區的繁榮發展。。。。。。商湯在2018年開源的計算機視覺框架OpenMMLab已在GitHub上收穫超過8.7萬個星標。。。。。。時至今日,,,,,,商湯的開源項目已拓展到決策智能、大語言模子、拓展現實、數據平台、高性能訓練和推理框架、AI智能體框架等領域,,,,,,為學術界的科研突破和工業界的產業落地提供全方位的算法與平台支援。。。。。。
其中,,,,,,在大語言模子領域,,,,,,商湯及聯合實驗室配合推出的書生·浦語大模子(InternLM)在開源社區和產業界產生廣泛影響。。。。。。最新的InternLM-20B模子性能先進且應用便捷,,,,,,以缺乏三分之一的參數量,,,,,,達到當前被視為開源模子標準的Llama2-70B的能力水平。。。。。。
承继開源、開放的發展理念,,,,,,商湯願與行業夥伴配合迎接大模子的新一輪科技革命,,,,,,讓AI技術釋放更廣泛的產業價值。。。。。。






返回