楊帆,商湯科技聯(lián)合創(chuàng)始人、副總裁,EGO北京分會會員。作為商湯科技工程產(chǎn)品中心總負(fù)責(zé)人,在泛安防智能視頻、移動互聯(lián)網(wǎng)、金融等行業(yè)開發(fā)和提供人工智能解決方案。憑借在計算機視覺算法產(chǎn)品化、項目管理、研發(fā)管理和團隊管理方面十余年的積累和經(jīng)驗,楊帆推動商湯科技在技術(shù)應(yīng)用商業(yè)化落地方面取得重大進展,僅2016年就獲取了數(shù)億元的產(chǎn)品訂單。因參與創(chuàng)建商湯科技,并在短短三年內(nèi)將其打造成為人工智能領(lǐng)軍企業(yè)的突出表現(xiàn),于2016年當(dāng)選“北京市優(yōu)秀青年人才”。
以下內(nèi)容由InfoQ對楊帆先生的部分采訪整理。
“AI更大的價值在于跟不同的行業(yè)結(jié)合”
楊帆在計算機視覺技術(shù)領(lǐng)域沉浸多年,在微軟任職期間,他主要從事計算機視覺、計算機圖形學(xué)等領(lǐng)域的新技術(shù)孵化工作,包括人臉識別、圖像物體識別、人像三維重建等;目前商湯的核心技術(shù)也是以人臉識別、智能監(jiān)控、圖像識別等為主。作為主導(dǎo)技術(shù)落地的負(fù)責(zé)人,楊帆笑稱自己是給公司的研究員們打下手的。楊帆帶領(lǐng)逾200人的工程開發(fā)團隊,在泛安防智能視頻、移動互聯(lián)網(wǎng)、金融等行業(yè)開發(fā)和提供人工智能解決方案,推動商湯科技在技術(shù)應(yīng)用落地方面取得重大進展。
楊帆認(rèn)為,AI技術(shù)并非新事物,但卻在過去的兩三年集中爆發(fā),其關(guān)鍵原因就在于今天對語音、圖像、視頻,有了更加信息化的處理技術(shù),在各個環(huán)節(jié)上具備了更強的技術(shù)儲備。從技術(shù)到落地,AI技術(shù)所實現(xiàn)的這一切,都離不開場景的支持。
AI技術(shù)繼承了多種基礎(chǔ)技術(shù),在面向工業(yè)、金融、醫(yī)療、家居、自動駕駛、安防、物流、農(nóng)業(yè)等不同應(yīng)用場景的解決方案,比如AI和醫(yī)療的融合應(yīng)該會體現(xiàn)在智能設(shè)備和識別診斷主要兩個方面;AI和金融的整合使金融交易和管理更加安全,實現(xiàn)精準(zhǔn)營銷、大數(shù)據(jù)征信和普惠金融;AI和安防的融合實現(xiàn)智能監(jiān)控、安保機器人等應(yīng)用場景;AI、大數(shù)據(jù)等這些東西純談概念是沒有任何意義的,最終都要回歸場景,可復(fù)用的基礎(chǔ)技術(shù)和平臺工具固然重要,但只有落在應(yīng)用場景里,我們才知道其明確的價值在哪里。
業(yè)界曾出現(xiàn)一種批評的聲音,稱現(xiàn)在很多公司和開發(fā)者其實對于深度學(xué)習(xí)的運作原理并不清楚,只知道應(yīng)用,卻不知其所以然。
楊帆表示:“學(xué)術(shù)界有兩套觀念,一套觀念說知其然不知其所以然是離經(jīng)叛道、是不對的。對于這個觀念,楊帆表示認(rèn)可,其實現(xiàn)在已經(jīng)有很多團隊,包括商湯也投入力量在進行更加前沿、更加基礎(chǔ)性的科研,“這樣的基礎(chǔ)科研能夠指導(dǎo)我們將來在正確的方向上走得更遠(yuǎn)。”但楊帆認(rèn)為,基礎(chǔ)研究與應(yīng)用科研,二者不可偏廢,完整的科學(xué)體系和持續(xù)的方向性指引非常重要,但是實證科學(xué)也非常重要,企業(yè)最終還是要以技術(shù)落地的結(jié)果說話。”
人臉識別大行其道,不免讓人對這項技術(shù)及其背后的公司產(chǎn)生了許多好奇。商湯的人臉識別技術(shù)到底有何門道?
對于這兩年非常火的“刷臉”,開始有各種基于人臉驗證能力的實用化場景。在互聯(lián)網(wǎng)信息安全方面,對于賬戶的盜用能夠更好的分析和調(diào)查,包括線上的手機端、桌面端、H5,包括定制的攝像頭。操作邏輯非常簡單,最開始做刷臉的注冊,現(xiàn)在刷臉的支付,手機逐漸去進行刷臉的解鎖。在對于個人的認(rèn)證上,也有非常多的價值。人臉識別的技術(shù),可以判斷操作手機的是不是真實的人。有一個活體檢測的技術(shù)服務(wù),也包括在線下一體機的形態(tài)。對身份證的關(guān)鍵信息進行掃描,包括對身份證內(nèi)部照片的讀取和當(dāng)前采集人之間進行判斷。基于人像的身份認(rèn)證也是一個非常有價值的工作,它是一個特殊的跨行業(yè)的解決方案。這個解決方案現(xiàn)在已經(jīng)從線上到線下開始極大范圍地蔓延。對中國來說,個人公民身份信息的實名制是一個非常重要的訴求,這個訴求能夠有效地幫我們在一定程度上解決互聯(lián)網(wǎng)的安全問題、解決線下的公共安全問題。所有線上的互聯(lián)網(wǎng)行業(yè)應(yīng)用,到各種線下行業(yè),包括機場、超市、酒店,都會有越來越多的對于個人身份信息核驗的強烈需求,商湯在這方面也提供了非常完整的解決方案。
大家都關(guān)注識別正確率,在實際場景中正確率是否為最關(guān)鍵因素?
近幾年,很多公司在人臉識別技術(shù)上投入了大量的研發(fā)并取得了亮眼的成績,其中識別率一直是各家宣傳的重點,今年我們能在各類報道中頻繁看到各種99%、99.4%、99.8%等。雖然企業(yè)這么宣稱,但實際背后蘊含的差異是非常大的,它會有非常多影響因素,所以準(zhǔn)確率跟行業(yè)背景以及前置假設(shè)會是一個強相關(guān)的關(guān)系。而不同的場景下取得的識別準(zhǔn)確率很難做類比。
當(dāng)識別率達到99%以后,人臉識別技術(shù)面臨的難點主要在于,如何在不同行業(yè)場景中深化這項技術(shù)。雖然看上去99%的識別率已經(jīng)很高了,但不同行業(yè)場景對于識別率的要求不同,99%可能只是該技術(shù)得以使用的入門條件;而安防場景下,照片模糊、有遮擋、角度不佳都給人臉識別帶來了更現(xiàn)實的挑戰(zhàn)。
“看似同質(zhì)化很強、很簡單的人臉識別,細(xì)分的技術(shù)場景其實非常復(fù)雜,所以脫離場景去談技術(shù)是沒有太大意義的,今天能看得到的,包括以安防、手機這樣的一些重點行業(yè)為代表,對于真正的人臉識別技術(shù)的全面深化存在著非常多的挑戰(zhàn),值得我們?nèi)スタ恕!?/p>
那么,怎樣判斷一個行業(yè)是否具有做AI場景的價值?如果從商湯自身說起,在做AI平臺化的進程中,遇到過哪些挑戰(zhàn)和問題?
1、看需求
首先,需求得是真實的。楊帆舉了個具體的例子:有一個家電廠商想通過人臉識別功能,實現(xiàn)“我進去之后這個房間自動調(diào)節(jié)成16度,我母親進這個房間自動調(diào)節(jié)成26度”。我問他:“如果你和你母親一塊進去怎么辦,如果你背著身進去怎么辦?”他說這個需求,其實最好的解決辦法就是搖控器。
其次,需求得是剛性的。需要考慮用戶愿不愿意買單,愿意花多少錢買單?往后更深層次的邏輯鏈,需要對場景的更深的了解。
2、規(guī)模化
今天完成一套解決方案成本很高。人臉識別這樣的技術(shù),在不同的場景中技術(shù)差異很大。我今天做金融,1:1的認(rèn)證,錯誤率做到百萬分之一,千萬分之一,準(zhǔn)確性非常高,在金融場景中非常好用。如果放在安防的場景下,安防要求百萬人的黑名單庫。而且黑名單庫還要有誤報,每一次誤報有一個出警。同樣是人臉識別,不同場景下關(guān)注的技術(shù)指標(biāo)和任務(wù)是完全不同的。所以同樣一個技術(shù)概念,在不同場景下的差異性非常明顯。再者技術(shù)什么時候成熟需要在特定的需求場景下,離成熟多遠(yuǎn)要有一個預(yù)判力。
3、數(shù)據(jù)閉環(huán)
做AI技術(shù),數(shù)據(jù)閉環(huán)是非常重要的環(huán)節(jié)。為什么?我們做視頻的會發(fā)現(xiàn),當(dāng)你技術(shù)不成熟的時候你的業(yè)務(wù)不能用,業(yè)務(wù)沒有落地的時候就沒有數(shù)據(jù)。做不好,就形成死循環(huán)。這樣的死循環(huán)如何去打破?原動力的突破來自于技術(shù),當(dāng)你的技術(shù)有小的突破,把其他場景遷移過來。技術(shù)的突破可以帶來業(yè)務(wù)的落地,業(yè)務(wù)的落地帶來數(shù)據(jù)的累積,數(shù)據(jù)的累計可以帶來技術(shù)的進步。這樣的數(shù)據(jù)閉環(huán),幫助整體業(yè)務(wù)拓展并能帶來非常大的價值。今天,數(shù)據(jù)面臨隱私性和安全性的質(zhì)問和考驗。包括區(qū)塊鏈在內(nèi)的很多技術(shù),還有一些非技術(shù)的方式方法,可以帶來更深層次的探索。
4、商業(yè)化
光做出好產(chǎn)品是不夠的,還要在市場上真的有價值,并且能持續(xù)保有競爭力。任何新技術(shù)都會隨著時間的推移而擴散,一般所擁有的時間窗口最多也就是一年多的時間。
在這一段時間內(nèi),如何看待當(dāng)前所面臨的場景?在這個場景中技術(shù)到底占據(jù)多大的地位?是非關(guān)鍵性的應(yīng)用還是關(guān)鍵性的應(yīng)用?技術(shù)上的突破和分配,是否產(chǎn)生根本性的問題?在技術(shù)的壁壘期,我們能否利用這一段時間構(gòu)建起技術(shù)以外的壁壘?
只有壁壘構(gòu)建出來,利用時間窗口期把技術(shù)優(yōu)勢轉(zhuǎn)化成其他的競爭性壁壘,這樣的行業(yè)才值得去做。
5、技術(shù)創(chuàng)新驅(qū)動
早在一兩年前,我們就搜集到大量用假照片和視頻去攻擊刷臉識別的行為,各種各樣的案例。當(dāng)我們擁有大量來自真實業(yè)務(wù)的攻擊數(shù)據(jù)時,就能夠針對圖像視頻各種各樣的攻擊方式進行非常好的防范,這來自于大量線上攻擊的業(yè)務(wù)數(shù)據(jù)的累積,以及對這些數(shù)據(jù)的二次挖掘和利用。
這個給我們什么樣的啟示?做刷臉一開始是做人臉識別,但后來我們發(fā)現(xiàn)人臉識別不是最重要的,最重要的活體識別,分清到底是一個真人還是仿冒攻擊。只有深入場景,才能發(fā)現(xiàn)你所面臨的技術(shù)挑戰(zhàn)跟你之前想象的不同。當(dāng)行業(yè)落地的時候所面臨的技術(shù)挑戰(zhàn),實際上需要重新定義、分解和解決。
從這五個閉環(huán)能夠幫助我們?nèi)ヅ袛啵岩粋€AI技術(shù)應(yīng)用在某一個場景是否真的有價值,是否真的有意義,是否帶來更大的用戶價值。從這幾個角度大家去進行分析判斷,會有一個相對比較好的結(jié)論。
想把落地場景做好,復(fù)合型技術(shù)人才尤為重要
如楊帆所說,真正去看行業(yè)落地的時候,往往都是不同的技術(shù)疊加和組合的應(yīng)用,這里面人臉識別和動作識別是最關(guān)鍵的技術(shù),但實際上想把落地場景做好,一定需要多種技術(shù)組合。
楊帆表示,將創(chuàng)新技術(shù)轉(zhuǎn)變?yōu)閷嶋H產(chǎn)品是一條滿是荊棘的道路,行之不易,而其中最大的難點,一是如何選對方向和時機,二是如何找到合適的人才。
行業(yè)落地需要各種綜合性的關(guān)鍵技術(shù)的整合。行業(yè)的需求往往是一些相對模糊的,而且從技術(shù)上來看是非常不明確的東西,這時候就需要有人有足夠的能力去一一拆解。在楊帆看來,找到或培養(yǎng)一些既有技術(shù)背景、又對行業(yè)有足夠深的理解的人才,是企業(yè)實現(xiàn)AI技術(shù)落地最關(guān)鍵的一點。他說到,“人才問題、團隊組織問題、發(fā)展問題,特別是做2B行業(yè),標(biāo)準(zhǔn)化與非標(biāo)準(zhǔn)之間的平衡性掌握,任何一個技術(shù)性產(chǎn)品落地會面臨的共有問題,做AI技術(shù)落地,這些問題一個都不會少,而只會更嚴(yán)重。AI人才是個更大的坑,AI的技術(shù)性更深重,從過往來看,它跟行業(yè)的結(jié)合更弱,所以你想要真正去打磨出一個符合真正行業(yè)需求的產(chǎn)品的時候,需要把對行業(yè)的理解和對技術(shù)的理解融合在一起,這是當(dāng)前最具挑戰(zhàn)任務(wù)之一,因為過去可能這個世界上基本不存在這樣的人,對行業(yè)有理解的人很少。”
結(jié)語
視覺AI技術(shù)的落地與AI人才的培養(yǎng)是一個復(fù)雜而龐大的話題,需要對技術(shù)和人才都有比較深刻的理解和認(rèn)知。