- 資訊與博客
上海人工智能實驗室聯合商湯科技與大學配合發佈 通用視覺技術體系「書生」
11月17日,,,,,,上海人工智能實驗室聯合商湯科技SenseTime、香港中文大學、上海交通大學配合發佈新一代通用視覺技術體系「書生」(INTERN),,,,,,該體系旨在系統化解決當下人工智能視覺領域中保存的任務通用、場景泛化和數據效率等一系列問題。。。。。。。现在技術報告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平台發佈。。。。。。;;;;;丁笗沟耐ㄓ靡曈X開源平台OpenGVLab也將在明年年头正式開源,,,,,,向學術界和產業界公開預訓練模子及其使用範式、數據系統和評測基準等。。。。。。。OpenGVLab將與上海人工智能實驗室此前發佈的OpenMMLab、OpenDILab配合構建開源體系OpenXLab,,,,,,助力通用人工智能的基礎研究和生態構建。。。。。。。

上海人工智能實驗室聯合商湯科技、香港中文大學、上海交通大學配合發佈新一代通用視覺技術體系「書生」(INTERN)
任務通用和數據學習效率是當前人工智能發展的焦点問題。。。。。。。根據相關技術報告,,,,,,一個「書生」模子即可周全覆蓋分類、目標檢測、語義支解、深度估計四大視覺焦点任務。。。。。。。在ImageNet等26個最具代表性的下游場景中,,,,,,書生模子廣泛展現了極強的通用性,,,,,,顯著提升了這些視覺場景中長尾小樣本設定下的性能。。。。。。。
相較於當前最強開源模子(OpenAI 於2021年發佈的CLIP),,,,,,「書生」在準確率和數據使用效率上均取得大幅提升。。。。。。。具體而言,,,,,,基於同樣的下游場景數據,,,,,,「書生」在分類、目標檢測、語義支解及深度估計四大任務26個數據集上的平均錯誤率分別降低了40.2%、47.3%、34.8%和9.4%。。。。。。。「書生」在數據效率方面的提升尤為令人矚目:只需要1/10的下游數據,,,,,,就能超過CLIP基於完整下游數據的準確度,,,,,,例如在花卉種類識別FLOWER任務上,,,,,,每一類只需兩個訓練樣本,,,,,,就能實現99.7%的準確率。。。。。。。
隨著人工智能賦能產業的不斷深入,,,,,,人工智能系統正在從完成單一任務向複雜的多任務協同演進,,,,,,其覆蓋的場景也越來越多樣化。。。。。。。在自動駕駛、智能製造、智慧都会等眾多的長尾場景中,,,,,,數據獲取通常困難且昂貴,,,,,,研發通用人工智能模子,,,,,,對於降低數據依賴尤為主要。。。。。。。而突破「工業應用紅線」的模子,,,,,,需滿足同時完成多任務、覆蓋大宗長尾場景,,,,,,且基於下游小樣本數據進行再訓練等要求。。。。。。。上海人工智能實驗室、商湯科技、香港中文大學以及上海交大聯合推出的「書生」通用視覺技術體系,,,,,,體現了產學研相助在通用視覺領域的全新探索,,,,,,為走向通用人工智能邁出堅實的一步。。。。。。。借助「書生」通用視覺技術體系,,,,,,業界可憑借極低的下游數據採集本钱,,,,,,快速驗證多個新場景,,,,,,對於解鎖實現人工智能長尾應用具有主要意義。。。。。。。
上海人工智能實驗室主任助理喬宇体现:「當前發展通用視覺的焦点,,,,,,是提升模子的通用泛化能力和學習過程中的數據效率。。。。。。。面向未來,,,,,,『書生』通用視覺技術將實現以一個模子完成成百上千種任務,,,,,,體系化解決人工智能發展中數據、泛化、認知和清静等諸多問題。。。。。。。」
商湯科技研究院院長王曉剛体现:「『書生』通用視覺技術體系是商湯在通用智能技術發展趨勢下前瞻性佈局的一次嘗試,,,,,,也是SenseCore商湯AI大裝置配景下的一次新技術路徑探索。。。。。。。『書生』承載了讓人工智能參與處理多種複雜任務、適用多種場景和模態、有用進行小數據和非監督學習並最終具備靠近人的通用視覺智能的期盼。。。。。。。希望這套技術體系能夠幫助業界更好地探索和應用通用視覺AI技術,,,,,,促進AI規;;;;;涞亍!。。。。。」

書生(INTERN)在分類、目標檢測、語義支解、深度估計四大任務26個數據集上,,,,,,基於同樣下游場景數據(10%),,,,,,相較於最強開源模子CLIP-R50x16,,,,,,平均錯誤率降低了40.2%,,,,,,47.3%,,,,,,34.8%,,,,,,9.4%。。。。。。。同時,,,,,,書生只需要10%的下游數據,,,,,,平均錯誤率就能周全低於完整(100%)下游數據訓練的CLIP。。。。。。。
階梯式學習:七大模塊打造全新技術路徑

書生(INTERN)技術體系可以讓AI模子處理多樣化的視覺任務
通用視覺技術體系「書生」(INTERN)由七大模塊組成,,,,,,包括通用視覺數據系統、通用視覺網絡結構、通用視覺評測基準三個基礎設施模塊,,,,,,以及區分上下游的四個訓練階段模塊。。。。。。。
書生作為中國古代讀書人的經典形象,,,,,,代表著一個通過不斷學習、不斷成長進而擁有各方面才华的角色:從基礎的知識手艺學習開始,,,,,,到對多種專業知識觸類旁通,,,,,,進而成長為擁有通用知識的通才。。。。。。。將全新的通用視覺技術體系命名為「書生」,,,,,,意在體現其犹如書生一样平常的特質,,,,,,可通過持續學習,,,,,,舉一反三,,,,,,逐步實現通用視覺領域的融會貫通,,,,,,最終實現靈活高效的模子安排。。。。。。。
當前的AI系統開發模式下,,,,,,一個AI模子往往只擅長處理一項任務,,,,,,對於新場景、小數據、新任務的通用泛化能力有限,,,,,,導致面對千變萬化的任務需求時,,,,,,須獨立開發成千上萬種AI模子。。。。。。。同時,,,,,,研究人員每訓練一個AI模子,,,,,,都需構建標注數據集進行專項訓練,,,,,,並持續進行權重和參數優化。。。。。。。這種低效的學習訓練要领,,,,,,導致人力、時間和資源本钱居高不下,,,,,,無法實現高效的模子安排。。。。。。。
「書生」的推出能夠讓業界以更低的本钱獲得擁有處理多種下游任務能力的AI模子,,,,,,並以其強大的泛化能力支撐智慧都会、智慧醫療、自動駕駛等場景中大宗小數據、零數據等樣本缺失的細分和長尾場景需求。。。。。。。

通用視覺技術體系「書生」(INTERN)由七大模塊組成,,,,,,包括3個基礎設施模塊、4個訓練階段模塊
持續成長:「四階段」提升通用泛化
在「書生」(INTERN)的四個訓練階段中,,,,,,前三個階段位於該技術鏈條的上游,,,,,,在模子的表徵通用性上發力;;;;;第四個階段位於下游,,,,,,可用於解決各種差别的下游任務。。。。。。。
第一階段,,,,,,著力於培養「基礎能力」,,,,,,即讓其學到廣泛的基礎常識,,,,,,為後續學習階段打好基礎;;;;;第二階段,,,,,,培養「專家能力」,,,,,,即多個專家模子各自學習某一領域的專業知識,,,,,,讓每一個專家模子高度掌握該領域手艺,,,,,,成為專家;;;;;第三階段,,,,,,培養「通用能力」,,,,,,隨著多種能力的融會貫通,,,,,,「書生」在各個手艺領域都展現優異水平,,,,,,並具備快速學會新手艺的能力。。。。。。。
在循序漸進的前三個訓練階段模塊,,,,,,「書生」在階梯式的學習過程中具備了高度的通用性。。。。。。。當進化到第四階段時,,,,,,系統將具備「遷移能力」,,,,,,此時「書生」學到的通用知識可以應用在某一個特定領域的差别任務中,,,,,,如智慧都会、智慧醫療、自動駕駛等。。。。。。。
產學研協同:開源共創通用AI生態
作為AI技術的下一個重大里程碑,,,,,,通用人工智能技術將帶來顛覆性創新,,,,,,實現這一目標需要學術界和產業界的緊密協作。。。。。。。上海人工智能實驗室、商湯科技、香港中文大學以及上海交大未來將依託通用視覺技術體系「書生」(INTERN),,,,,,發揮產學研一體化優勢,,,,,,為學術研究提供平台支持,,,,,,並周全賦能技術創新與產業應用。。。。。。。
明年年头,,,,,,基於「書生」的通用視覺開源生態OpenGVLab將正式開源,,,,,,向學術界和產業界公開預訓練模子、使用範式和數據庫等,,,,,,而全新創建的通用視覺評測基準也將同步開放,,,,,,推動統一標準上的公正和準確評測。。。。。。。OpenGVLab將與上海人工智能實驗室此前發佈的OpenMMLab、OpenDILab一道,,,,,,配合構建開源體系OpenXLab,,,,,,持續推進通用人工智能的技術突破和生態構建。。。。。。。
附:
1. 技術報告《INTERN: A New Learning Paradigm Towards General Vision》:arxiv.org/abs/2111.08687
2. OpenMMLab開源網址:github.com/open-mmlab
3. OpenDILab開源網址:github.com/opendilab






返回