哈哈(haha)体育

申請試用
登入
資訊與博客

商湯開源多模態多任務通用大模子「書生2.5」

2023-03-15

2023年3月15日────商湯科技發佈多模態多任務通用大模子「書生(INTERN)2.5」,,,,,,,,在多模態多任務處理能力方面實現多項全新突破,,,,,,,,其卓越的圖文跨模態開放任務處理能力可為自動駕駛、機器人等通用場景任務提供高效精準的感知和明确能力支持。 。。。。。。。「書生(INTERN)」最初版本由商湯科技、上海人工智能實驗室、清華大學、香港中文大學、上海交通大學在2021年11月首次配合發佈,,,,,,,,並持續聯合研發。 。。。。。。。

 

「書生2.5」多模態多任務通用模子的視覺焦点,,,,,,,,是由InternImage-G通用視覺大模子作技術支撐。 。。。。。。。「書生2.5」擁有30億參數,,,,,,,,在視覺主流圖像分類數據集ImageNet上,,,,,,,,僅基於公開數據便達到了90.1%的Top-1準確率,,,,,,,,不僅是现在世上開源模子中準確度最高、規模最大的模子,,,,,,,,也是物體檢測標桿數據集COCO中唯一超過65.0 mAP的模子。 。。。。。。。现在,,,,,,,,「書生2.5」多模態通用大模子已在通用視覺開源平台OpenGVLab開源(https://github.com/OpenGVLab/InternImage)。 。。。。。。。

 

當前,,,,,,,,人工智能技術的發展正面臨著大宗跨模態任務的挑戰。 。。。。。。。此次全新發佈的「書生2.5」致力建構多模態多任務通用模子,,,,,,,,可吸收處理各種差别模態的輸入,,,,,,,,並採用統一的模子架構和參數處理各種差别的任務,,,,,,,,促進差别模態和任務之間在体现學習方面的協作,,,,,,,,逐步實現通用人工智能領域的融會貫通。 。。。。。。。

 

邁向AGI通用人工智能 大幅提升通用場景感知和明确能力

「書生2.5」實現了通過文本來定義任務,,,,,,,,從而可以靈活地定義差别場景的任務需求,,,,,,,,並根據給定視覺圖像和任務的提醒性語句,,,,,,,,給出相應的指令或作答,,,,,,,,進而具備通用場景下的高級感知和複雜問題處理能力,,,,,,,,好比圖像形貌、視覺問答、視覺推理和文字識別等。 。。。。。。。

 

例如在自動駕駛等通用場景下,,,,,,,,「書生2.5」可輔助處理各種複雜任務,,,,,,,,包括準確地輔助車輛判斷交通讯號燈狀態、蹊径標誌牌等信息,,,,,,,,為車輛的決策規劃提供有用信息輸入。 。。。。。。。


image001.jpg


「書生2.5」同時具備人工智能天生內容(AIGC, AI-Generated Content)「以文生圖」的能力,,,,,,,,可根據用戶提出的文本創作需求,,,,,,,,使用擴散模子天生算法,,,,,,,,天生高質量、自然的寫實圖像。 。。。。。。。例如在自動駕駛技術研發方面,,,,,,,,「書生2.5」可以通過天生各類真實的蹊径交通場景,,,,,,,,如忙碌的都会街道、雨天擁擠的車道、馬路上奔驰的狗等,,,,,,,,進而訓練自動駕駛系統對Corner Case場景的感知能力上限。 。。。。。。。


image002.jpg

 

「書生2.5」還可根據文本內容需求快速定位檢索出語義最相關的圖像。 。。。。。。。例如,,,,,,,,可在相冊中找出文本所指定的相關圖像,,,,,,,,或是在視頻中找出與文本形貌最相關的片断,,,,,,,,提高視頻中時間定位任務的效率。 。。。。。。。


image003.jpg

 

别的,,,,,,,,「書生2.5」支持引入物體檢測框,,,,,,,,根據文本找出最相關的物體,,,,,,,,實現開放天下視頻或圖像中物體檢測及視覺定位。 。。。。。。。


image004.jpg


當前,,,,,,,,「書生」還在持續學習、不斷進步。 。。。。。。。我們將繼續致力於推動多模態多任務通用模子技術的突破,,,,,,,,驅動通用人工智能技術的創新應用生態,,,,,,,,為推動人工智能學術、產業發展做出貢獻。 。。。。。。。

 


【网站地图】【sitemap】