隨著人臉識別、語音識別和自動駕駛?cè)找娉蔀殛P注焦點,人工智能(AI)與社會、人類生活融合程度正在快速演進。
其實早在1956年,人工智能這個“術語”就被正式提出。但在有限且昂貴的計算能力、已有計算方法存在缺陷、缺乏數(shù)據(jù)量這些無法克服的基礎性障礙面前,“模擬人類大腦”顯得非常遙遠。此后,一直到20世紀80年代初,隨著一類名為“專家系統(tǒng)”的AI程序開始為全世界的公司所采用,人工智能才興起了第二次熱潮。各國開始投入大量資金,例如日本經(jīng)濟產(chǎn)業(yè)省雄心勃勃旨在打造“第五代計算機”的研究計劃,目標是制造出能夠與人對話、翻譯語言、解釋圖像,并且能像人一樣推理的機器。80年代后期,產(chǎn)業(yè)界對人工智能系統(tǒng)投入巨大但只產(chǎn)生有限的應用產(chǎn)生質(zhì)疑,人工智能的泡沫逐漸破裂,投入大幅消減,人工智能再一次步入寒冬。
那么,人工智能到底將靠什么走向大眾?筆者認為,視覺AI技術將是發(fā)展方向。
對人類而言,70%到80%的信息獲取來自視覺。對人工智能來說,視覺AI也被視為目前最具應用價值的AI技術。它能夠讓機器具備“從識人知物到辨識萬物”的能力,從而看懂、理解這個世界,幫助我們在生產(chǎn)和工作中,提升處理信息的效率。
簡單來說,視覺AI就是研究如何讓機器會“看”,即用攝影機和電腦代替人眼對圖像進行特征提取和分析,并由此訓練模型對新的圖像數(shù)據(jù)進行檢測、識別等任務,建立能夠從圖像或者多模態(tài)數(shù)據(jù)中獲取“信息”的人工智能系統(tǒng)。
源于深度學習的突破,視覺AI的識別能力突飛猛進,2012年的兩個轟動事件,更被視為視覺AI的發(fā)展拐點。當時,由多倫多大學Geoffrey Hinton領導的團隊,在一項名為ImageNet的圖像識別競賽中,利用深度學習和GPU的強大計算能力,將錯誤率降低了10%,震驚學術界,因為之前這項錯誤率每年只會降低1%—2%。
同年,“谷歌大腦之父”吳恩達帶領團隊,利用10億參數(shù)的神經(jīng)網(wǎng)絡,在沒有任何先驗知識的情況下,僅僅通過觀看無標注的YouTube的視頻,創(chuàng)造了一套貓臉識別系統(tǒng)——從海量照片里自動識別出貓臉。
視覺AI迅速成為人工智能領域最重量級的研究領域,源自于其在安防、醫(yī)療、無人駕駛等多個領域的應用前景。
例如,在安防領域,視覺AI技術可進行人群分析、逃犯追捕,可通過城市中成千上萬條路的攝像頭對目標人群進行鎖定與篩查,并做到實時告警,助力安防效率的提升;在手機領域,AI可提供刷臉解鎖、刷臉支付等更加安全和便捷的體驗,還可自動為面部美顏省去后期修圖的時間;在自動駕駛領域,AI技術可以通過攝像頭獲取的圖像,對車體的周圍環(huán)境進行識別和分析,輔助做出精準的路徑規(guī)劃。
在眾多的視覺AI應用場景中,AI醫(yī)學圖像分析是近年來熱度極高的一個細分領域。這主要得益于醫(yī)院信息數(shù)字化建設的不斷提速,以醫(yī)學影像為核心的大數(shù)據(jù)不斷豐富,為AI在醫(yī)療領域的發(fā)展提供了充足的養(yǎng)料。與此同時,優(yōu)質(zhì)醫(yī)療資源的稀缺和分配不均也不斷催生著社會對人工智能的需求。
當下AI+醫(yī)療的紅火,對推動這個行業(yè)的發(fā)展起到了不可磨滅的作用,還有豐富的應用場景和海量的機會等待挖掘,例如個性化醫(yī)療、可穿戴智能醫(yī)療設備的實時監(jiān)測與分析等。
放眼未來,更多的應用前景都將貼上視覺AI的標簽。比如,人臉識別技術有望在更多的物聯(lián)網(wǎng)終端設備上應用,讓安全便捷的身份認證無處不在,提升生活體驗;在AI+工業(yè)領域,工業(yè)機器人、物流機器人將更多替代傳統(tǒng)勞動力;在AI+文化領域,基于AI的增強現(xiàn)實技術,可以將古代文物、古代場景生動復原得以假亂真;在AI+教育領域,利用視覺技術實現(xiàn)學生的注意力管理、跟蹤學生的知識點掌握,實現(xiàn)真正的因材施教。
當然,AI掀起的新一輪產(chǎn)業(yè)浪潮不過短短幾年,技術上需要持續(xù)不斷的突破創(chuàng)新,行業(yè)需要不斷的深耕和挖掘,大眾也需要對其給予足夠的耐心。