- 資訊與博客
商湯開源多模態多任務通用大模子「書生2.5」
2023年3月15日────商湯科技發佈多模態多任務通用大模子「書生(INTERN)2.5」,,,,,,,,在多模態多任務處理能力方面實現多項全新突破,,,,,,,,其卓越的圖文跨模態開放任務處理能力可為自動駕駛、機器人等通用場景任務提供高效精準的感知和明确能力支持。。。。。。。。「書生(INTERN)」最初版本由商湯科技、上海人工智能實驗室、清華大學、香港中文大學、上海交通大學在2021年11月首次配合發佈,,,,,,,,並持續聯合研發。。。。。。。。
「書生2.5」多模態多任務通用模子的視覺焦点,,,,,,,,是由InternImage-G通用視覺大模子作技術支撐。。。。。。。。「書生2.5」擁有30億參數,,,,,,,,在視覺主流圖像分類數據集ImageNet上,,,,,,,,僅基於公開數據便達到了90.1%的Top-1準確率,,,,,,,,不僅是现在世上開源模子中準確度最高、規模最大的模子,,,,,,,,也是物體檢測標桿數據集COCO中唯一超過65.0 mAP的模子。。。。。。。。现在,,,,,,,,「書生2.5」多模態通用大模子已在通用視覺開源平台OpenGVLab開源(https://github.com/OpenGVLab/InternImage)。。。。。。。。
當前,,,,,,,,人工智能技術的發展正面臨著大宗跨模態任務的挑戰。。。。。。。。此次全新發佈的「書生2.5」致力建構多模態多任務通用模子,,,,,,,,可吸收處理各種差别模態的輸入,,,,,,,,並採用統一的模子架構和參數處理各種差别的任務,,,,,,,,促進差别模態和任務之間在体现學習方面的協作,,,,,,,,逐步實現通用人工智能領域的融會貫通。。。。。。。。
邁向AGI通用人工智能 大幅提升通用場景感知和明确能力
「書生2.5」實現了通過文本來定義任務,,,,,,,,從而可以靈活地定義差别場景的任務需求,,,,,,,,並根據給定視覺圖像和任務的提醒性語句,,,,,,,,給出相應的指令或作答,,,,,,,,進而具備通用場景下的高級感知和複雜問題處理能力,,,,,,,,好比圖像形貌、視覺問答、視覺推理和文字識別等。。。。。。。。
例如在自動駕駛等通用場景下,,,,,,,,「書生2.5」可輔助處理各種複雜任務,,,,,,,,包括準確地輔助車輛判斷交通讯號燈狀態、蹊径標誌牌等信息,,,,,,,,為車輛的決策規劃提供有用信息輸入。。。。。。。。

「書生2.5」同時具備人工智能天生內容(AIGC, AI-Generated Content)「以文生圖」的能力,,,,,,,,可根據用戶提出的文本創作需求,,,,,,,,使用擴散模子天生算法,,,,,,,,天生高質量、自然的寫實圖像。。。。。。。。例如在自動駕駛技術研發方面,,,,,,,,「書生2.5」可以通過天生各類真實的蹊径交通場景,,,,,,,,如忙碌的都会街道、雨天擁擠的車道、馬路上奔驰的狗等,,,,,,,,進而訓練自動駕駛系統對Corner Case場景的感知能力上限。。。。。。。。

「書生2.5」還可根據文本內容需求快速定位檢索出語義最相關的圖像。。。。。。。。例如,,,,,,,,可在相冊中找出文本所指定的相關圖像,,,,,,,,或是在視頻中找出與文本形貌最相關的片断,,,,,,,,提高視頻中時間定位任務的效率。。。。。。。。

别的,,,,,,,,「書生2.5」支持引入物體檢測框,,,,,,,,根據文本找出最相關的物體,,,,,,,,實現開放天下視頻或圖像中物體檢測及視覺定位。。。。。。。。

當前,,,,,,,,「書生」還在持續學習、不斷進步。。。。。。。。我們將繼續致力於推動多模態多任務通用模子技術的突破,,,,,,,,驅動通用人工智能技術的創新應用生態,,,,,,,,為推動人工智能學術、產業發展做出貢獻。。。。。。。。






返回