21世紀資源爭奪將由過去的對權利、房子、人才快速切換到對數據的爭奪,誰手頭上掌握了足夠多的有價值的數據,誰將站在階層分級的金字塔頂端。最近,此種論調得到了愈來愈多人的認可。那么,數據是如何服務于用戶并最終由無序的符號變為強勁的生產力的呢?近日,本刊有幸采訪到美國羅切斯特大學(UniversityofRochester,USA)計算機科學系的羅杰波教授,讓我們一起來了解人工智能與數據的關系及它們最終如何影響著我們的生活。
美國羅切斯特大學計算機科學系羅杰波教授
大數據分析實例網絡空間中的用戶移動規律
首先,用戶行為習慣分為兩大類,一類是有跡可循的實際發生的數據,比如衣食住行等行為習慣,而“行”又作為一切行為的引發點,在物理空間中是可以通過分析人流習慣來規劃城市,設計CBD,策劃商業模式及行為等等。另一類是網絡空間的數據生活,隨著網絡生活占據人類越來越多的時間,商業行為更多的轉移到網絡世界來已經是個不可逆的趨勢,那么如何在網絡世界中尋找用戶的移動規律并更好地為用戶提供服務?這是我們最近在做的一個工作:
研究物理空間中的人的行為、移動規律,通過手機及一些記錄地理位置信息的東西可以來研究。比如滴滴,有打車的記錄,可以看看早上人群是怎么流動,然后晚上人群是怎么流動。另外一個例子是春運,可以通過火車票、飛機票等來看這個人流的走向,能看出來有很多人是從外地來的,來到比如說深圳、北上廣等城市打工的,那么春節他們都要回去,然后這些就能看出比如說廣州的人都是哪兒的。這些數據對國家的交通、市政規劃都是有影響的。
網絡空間中人是怎么流動的呢?從類比的角度去看,我們的地點對象就是各種社交平臺。真實世界的地點也有公共場所和私密空間,在網絡空間這個形態里也能找到同樣的東西。比如微博,就相當于一個公共場所,誰都可以去看。再看微信,可能就比較私密。有的東西是開放給所有人的,而有的人就拉個小群,就只開放給某幾個人,講一些比較私密的事情。
我們可以看出一個規律,發現一個有意思的事情:網絡空間的這些模式,跟物理空間很相像。就像物理空間吃飯的地方或者是鍛煉的地方、家在哪里,當然你也可以去旅游的地方等等。那么網絡空間里也有同樣的東西,人每天去那么幾個地方,你可以想象微信是你家似的,你可能去“今日”、“頭條”看看新聞等。可以在有限的這么幾個常去的地方。人在物理空間都會回歸到某個地方,我們發現人在網絡空間也是一樣。當然你偶然也會出差,或者旅游去其他地方。
所以我們在做的事情就是,把對物理空間的研究方法搬到網絡空間來,同樣挖掘網絡空間里人的移動規律。我們還發現在網絡空間里有一個現象,有的人喜歡探索,就會在網上到處看。而網絡空間比較“宅”的人看的東西比較少,或者很長時間不改變。喜歡探索的人,有兩種,一種是先到處亂看,然后最后選擇幾個點;還有一種就是開始不怎么看,然后越看越多,這兩種模式都很有意思。
但一個有趣的地方是:物理空間中,你不可能同時在兩個地方。現在多了個網絡空間后,常規來說你也不能同時在兩個地方。比如說你在網絡空間里花很多時間,那你在物理空間多半是沒動的。唯一一個特例呢,想象是你在公交車上或是地鐵,這個時候你人也在動,網絡空間也在動。也可以想象你是一個點,你沒動,是公交車在動。這個中間有個矛盾,就是這兩個空間是互補的。我們想知道這些規律是不是一樣,我們也在研究兩個空間之間的關聯性:知道在這個空間人的行為是不是就能預測到人在另外一個空間的行為。或者知道他現在在這個地方干什么,然后可能在那邊就不可能干什么。隨著研究的深入,成果將對如何去給用戶提供更好的服務帶來幫助,用途也非常廣泛。
大數據分析手段及工具
大數據獲取后,需要經過分析并從中得出規律才會轉化為有價值的數據,大數據處理常用的方法有統計學、機器學習、數據挖掘方法等。
大數據分析傳統的手段是統計,但是統計不是大數據分析,也就是說統計這個東西存在很多年了,但是從研究開發的經驗來看,大數據分析光靠統計是不行的。現在的通常手段或者我們喜歡用的手段是機器學習,或者叫數據挖掘,機器學習和數據挖掘其實是差不多的,是和統計不同的一種方法,它基本上是一種學習手段,包括有監督學習、無監督學習等在內,而且具體要根據不同的問題采用不同的手段。
大數據最常用的機器分析語言有Python、JAVA。Matlab也會少量應用于計算機視覺信息挖掘。我個人認為Python是一種針對大數據分析較好的語言,這是因為其處理文字比較強。其實現在大數據主要是文字和數字,當然很多大數據也有圖像,但是圖像的問題可以通過深度學習的方法變成結構化文字或者數字。深度學習大多數的軟件都是Python寫的。也就是說現在這個階段,做什么樣的大數據分析,用Python基本都可以搞定,所以常用的編程語言就是Python。
常用的大數據分析軟件不多,目前有一些統計軟件比如機器學習、深度學習,五花八門,有的軟件是民間開發的,有的是一些大企業開發的,像谷歌、百度、阿里巴巴等等,而且有不少是開源的。
大數據對現有行業的影響及用戶普遍關注的安全及隱私問題
社交、消費和金融這些都是比較早應用大數據的行業,不乏成功的案例。我覺得下一步大幅應用大數據技術的是安防行業,就是跟維穩有關系的東西,如果你有充足的大數據,實際上人的行為是很清楚的。反恐、各種犯罪活動,包括金融犯罪,不一定是刑事犯罪,這些東西都可以去捕捉,這個是從社會安全這個角度來說。另外一個行業就是醫療,有人開玩笑說有幾個東西是不靠譜的,比如百度看病,微信養生。但是這個只是說明現在我們的信息很雜,但不是說明這些平臺本身不對,比如說微信,沒準它真的能夠發展成為跟養生、健康有關系的東西。是可以推動的,只是現在沒有做到而已。現在不靠譜是因為各種人在里邊把不可靠的消息轉來轉去。這個是屬于“無政府”的狀態,如果微信或者別的平臺,利用大數據來做這個東西是完全有可能的。想像一下,有了大數據,不僅對一個個體,甚至是對一個群體都有一個更深的了解。凡是想對一個個體或者群體想做的事情都可以做得更好。所以從這點來說大數據對現有行業的影響是顛覆性的。
拿社交方面的典型應用微信來說,微信我覺得他做的很成功的就是,它變成一個像家的地方,你可以通過微信去干很多事情,比如說通過微信去打游戲,去支付,去發紅包甚至像我們做學術,有人做生意也是這樣做的。微信這個平臺,之所以現在這么熱,主要它是一個提供便利的信息交換的一個平臺。人們可以發現用這個平臺可以做生活中很多的事情。那么這個平臺所謂的聯系就很大,很多人都在上面。這個平臺下一步可以做的事情就是,人在微信這個平臺有各種各樣的活動,那么我們可以收集到各種各樣的數據,可以研究每一個用戶的信息,進行用戶畫像,微信就可以推薦各種各樣的產品、服務、或者社交機會、甚至是職業機會。它實際上掌握了大量個人的數據,把越來越多的東西都集成到這個系統中,那么最后基于微信平臺的殺手級應用是肯定會出來的。
至于隱私和安全,這是個大問題,但是這個事情我是這樣看的。有的事情你不是說擔心隱私你就不去做。我覺得很好的例子就是移動支付。很多人一開始包括我都持懷疑態度。但是現在不是到處都在用嘛,大家好像也沒有覺得這個少了錢多了錢或者是怎樣。你在做的過程中這些供應商會想盡辦法去解決隱私保護和信息保護這些東西。要不然就不會有用戶。就是說這個需要會推動這個問題的解決方案。所以說不能是因為害怕這個負面的東西就不去做這個事情。而是說邊做邊改善。自然會找到隱私保護和安全保護的措施。所以說從技術的角度上,我不擔心。可能現在沒有一些方案,但是這些方案是可以去開發的。
大數據分析正全面影響我們的衣食住行
我們的研究還涉及到多媒體,就是用一些人工智能的手段,用一些大數據處理的手段來分析社交多媒體的一些數據語言。最后我們就可以改進人生活的方方面面。社交多媒體是人工智能的一個很重要、很豐富的一個數據語言。
我覺得人在物理空間,他的關系就是跟別人的關系、跟物的關系,當然也有跟地點的關系。如果對一個人的興趣、行為這些方式有越深入了解的話,那就可以提供更好的服務。物聯網其實就是這樣一個概念,生活中的這些器件可以通過網絡聯系起來,但這些器件最后都是跟人發生關系的,所以對人了解得越多,就越知道這些關系怎么去安排、怎么樣給人提供最好的產品和服務。
我們團隊的研究成果觸及了人生活的所有方面,人的生活方面最基本的就是衣食住行,這個我們有涉及,我們更高級的需要除了衣食住行可能就是醫療,教育,娛樂等。包括可能有些人投資也是一種生活的需要。這些方面的研究其實我們都在做。
我就一個個說吧,比如說“衣”,我們做過大數據,從淘寶的大數據里面可以用計算機視覺和大數據分析的方法,分析為什么有的衣服很暢銷,是因為領好,還是扣子好,還是說是顏色,還是花紋。這個我們目前都是自動的。這個在傳統的時裝行業是人做的。有人不斷的看照片,然后找用戶去問。這些都是非常低效的辦法。網上的衣服五花八門,人的口味和趣味也是五花八門。不用大數據的手段,用人去做這個事情基本上是不能應付的。
“食”我們也做過。美國超市大都是連鎖式。連鎖店都有會員,會員每次刷卡其實購物的記錄全部都在上面。那么這點中國也可以,比如以網購的方式來買菜,我們知道你買什么就會吃什么,這樣的話就可以把你的飲食和健康,比如你肥胖、心臟病、糖尿病、眼睛不好等這些點關聯起來。最后可以做成你手機的一個APP,也可以跟超市一起合作,根據觀察你的飲食情況,我認為你缺這個東西,或者你有可能吃太多某種食物,你應該改善,你應該買這個,這個等于就是把人的飲食健康水平提高。
“住”的話其實我們也做過。我們通過大數據看人住過什么樣的酒店,再看這些住的人都是什么收入,什么文化,什么時候去等。這個時候就可以做一些推薦系統,比如說從另外一個地方到深圳來,根據他的消費習慣,承受能力,推薦一些住店建議。反過來呢,店家知道常來的客人是這樣的,是不是可以提高服務、設施、盡量去滿足這類人的需要,或者說這類人不是我想服務的人,那我可能要進行改進去吸引另外一類人。
“行”就是酒店可以考慮到季節性,很多人可能節后來觀光,可以看出租車,公交車怎么去調派。這些其實我們都做過。
醫療我們做過很多事情,這里時間問題我就不講了。社會教育方面我們也做過,就是把每個學生和導師進行一個關聯,推薦最適合的導師。總的來說,就是說人的生活的每個方面都可以運用大數據,就是說如果我們對每個人的興趣愛好、性格、情緒情感了解得越多,那么我們就可以提供更好的服務,對社會也能提供更好的幫助。
展望未來“智”生活
十年后的生活跟現在肯定不一樣,二十年后更不一樣。其實我認為都不需要十年,再過五年,我們看來就跟現在不一樣。就拿移動支付來說,當然這個移動支付,不是人工智能的問題,他是一個技術的問題,這個技術改變了人們的生活習慣,現在的人大多時候都不用帶現錢了。很容易大家就可以交換服務,交換付費這個事情。人工智能也是這樣的,比如機器人,現在可能還不會做太多的事情,那以后,不僅可以帶你小孩子出去遛彎,而且替你遛狗這件事情在不遠的將來都能做到。但是這個機器人遛狗實際上是需要人工智能的,它要知道怎么走這個路,去到哪,怎么回來,如果這個狗亂跑怎么辦,然后比如狗咬人了或者其他意外發生時它要怎么辦,所以機器人要有視覺,要能定位,要能觀察這個狗有什么行為,這個狗和周圍的人有什么交互,這些都是人工智能。為了實現機器人遛狗這個事,需要很多的人工智能。我認為未來五年內,就可以實現機器人遛狗這個事情。如果我們五年內做到這件事,你可以想象很多別的事情,比如說醫院護理病人,護士辛苦是一方面,還有就是如果說病人他不能動了,有的護士沒這個力氣去搬動,還有搬的時候可能力氣不夠,高度不對,那可能造成對病人的損傷。但是機器人的話,如果能實現這些,可以實現把癱瘓的病人,或者需要我們扶的病人安全地搬來搬去,或者從一個房間走到另一個房間,現在其實美國已經有了這類機器,這個機器可以走到床邊。這兩個例子,我認為都是可以發生的,至于發生的形式是不是跟我們想象的一致倒不見得。比如說這個遛狗的機器人,是長得像個人,還是有輪子的,有腳的,這些都不重要。重要的是這個機器人可以遛狗,它具體的形態我們不容易判斷,但是它的功能是可以預見的。
未來五年、十年、二十年,我們生活將會很不一樣。人工智能會是很大的因素。正如移動支付這項技術正在改變著人類的生活,人工智能也會如此,包括機器人與環境、人機之間實現交互等更為智能化應用場景的實現,這些都是需要人工智能技術來推動。
羅杰波教授簡介
羅杰波教授是IEEE、SPIE和IAPR等國際著名學會會士(Fellow)。研究涉及圖像處理、計算機視覺、自然語言理解,機器學習、數據挖掘,社交媒體、醫療影像、輿情分析,用戶畫像,推薦系統,智慧城市,普適性計算等多個前沿領域。羅杰波教授曾于“柯達實驗室”從事研究長達十五年,并擔任該實驗室首席科學家。羅杰波教授是國際頂級會議ACMMultimedia2010/2018,CVPR2012大會共同主席,并擔任IEEETransactionsonPAMI、IEEETransactionsonTMM、IEEETransactionsonCSVT、ACMTransactionsonTIST、PatternRecognition等國際頂尖學術期刊編委會成員,發表超過350篇學術論文,持有超過90項美國專利。近年來,羅杰波教授在社交多媒體研究及其社會應用中做出了開創性貢獻。