在9月29日給同濟(jì)大學(xué)管理科學(xué)與工程碩士班同學(xué)上課中同學(xué)們得提問題涉及到了很多有意思的話題,因此撰文對其中幾個問題進(jìn)行回答,也共同分享,上次談到智能制造是一個技術(shù)變革還是一個管理變革,但是,發(fā)現(xiàn)遠(yuǎn)不止于此,包括制度、技術(shù)、管理、組織、生態(tài)等都是需要變革的。此次簡要談?wù)勂渲幸粋€同學(xué)問到的“人工智能應(yīng)用中,是否人發(fā)揮的作用更大?”。
就以目前經(jīng)常談到的機(jī)器學(xué)習(xí)(machinelearning)來說吧!在之前談到的人工智能發(fā)展的連接主義,符號主義,行為主義幾個學(xué)派許久的研究嘗試之后,還是讓機(jī)器回到“學(xué)習(xí)”這個人類基本的思維形成過程,當(dāng)然,機(jī)器學(xué)習(xí)目前與統(tǒng)計學(xué),數(shù)據(jù)挖掘等還有大量重疊部分,但也有在監(jiān)督學(xué)習(xí)方面有一些發(fā)展的區(qū)別,并且本文對于規(guī)則和數(shù)據(jù)兩種不同的機(jī)器學(xué)習(xí)方向也不做討論,僅就機(jī)器學(xué)習(xí)本身的通用過程來分析其中人的作用即可。
機(jī)器學(xué)習(xí)的整個過程可以分為數(shù)據(jù)收集、預(yù)處理、降維、建模、測試,整個過程中,人都會扮演非常重要的角色。
圖-機(jī)器學(xué)習(xí)的通用過程描述【來自智慧的疆界】
將工業(yè)問題變?yōu)橐粋€數(shù)學(xué)問題就是難題
就像對于任何的軟件開發(fā)和自動化工程項目一樣,把需求搞清楚都是困難的事情,把用戶的需求和自身的系統(tǒng)之間進(jìn)行有效的匹配,或者將實驗室的設(shè)計到實現(xiàn)可執(zhí)行的經(jīng)濟(jì)性制造過程本身在很多行業(yè)就是非常困難的,也是制造業(yè)整個的難點(diǎn)和核心問題,如果理解了這個問題,相信對于機(jī)器學(xué)習(xí)也就不難理解了,在第一個階段,你先把現(xiàn)實世界的問題提煉為一個機(jī)器學(xué)習(xí)的問題,就需要你對問題有很深的認(rèn)知,做控制工程的人都清楚,如果問題能夠被數(shù)學(xué)描述,建模,那么編程反倒是件簡單的事情,機(jī)器學(xué)習(xí)的道理也并未超越這個局面,因此,如何將行業(yè)的問題轉(zhuǎn)化為一個機(jī)器學(xué)習(xí)的問題本身就是一個挑戰(zhàn)。
首先是工藝必須懂,注塑機(jī)是怎么打一個產(chǎn)品的,印刷機(jī)又是怎么印刷確保套色準(zhǔn)確的,鍋爐的進(jìn)風(fēng)量和煤炭的輸送鏈條和輸入量的關(guān)系等等,而且還有擾動因素有哪些....非常多的問題,往往難題在于做機(jī)器學(xué)習(xí)的人不懂工藝,而懂工藝的人不懂機(jī)器學(xué)習(xí),所以,跨界融合創(chuàng)新的難點(diǎn)就發(fā)生在這個第一步了。
數(shù)據(jù)清洗與特征選擇
數(shù)據(jù)采集又會是一個問題,不同的控制器,不同的總線,數(shù)據(jù)的定義、單位、格式等都會有很多偏差,這個方面也需要規(guī)范與標(biāo)準(zhǔn)化,不能來了很多沒有用的數(shù)據(jù),或者殘缺的不能滿足一個完整的描述工藝的數(shù)據(jù)集,而且數(shù)據(jù)也要,確保數(shù)據(jù)正確的過程是一個“清洗”過程,而數(shù)據(jù)的是合適的部分則是特征選擇的問題。
這個過程本身包括數(shù)據(jù)的集成、清洗操作、分層采樣、數(shù)據(jù)分配、規(guī)范化、平滑化等操作,而這些操作,并非是由機(jī)器來完成,而是要由人來完成。
其中的特征選擇關(guān)乎整個機(jī)器學(xué)習(xí)的質(zhì)量,過多的特征會讓數(shù)據(jù)維度過高,而造成數(shù)據(jù)稀疏,這又會造成難以獲得相似性的回歸,而且很多時候工業(yè)里維度提高了卻沒有足夠的數(shù)據(jù)來訓(xùn)練,而有大量數(shù)據(jù)訓(xùn)練又可能會出現(xiàn)數(shù)據(jù)無關(guān)性,比如與質(zhì)量無關(guān)的數(shù)據(jù)用于訓(xùn)練,那么也訓(xùn)練不出高品質(zhì)的模型。
人工智能是人與機(jī)器的協(xié)作
而如何對數(shù)據(jù)進(jìn)行特征選擇,平衡特征值與數(shù)據(jù)量的關(guān)系,以獲得最佳的學(xué)習(xí)質(zhì)量,本身就要依賴于機(jī)器學(xué)習(xí)專家和工藝專家對這些問題的權(quán)衡。這些都依賴于人的智慧、經(jīng)驗和產(chǎn)業(yè)積累。
因此,在整個機(jī)器學(xué)習(xí)的訓(xùn)練中,數(shù)據(jù)預(yù)處理階段占據(jù)了整個機(jī)器學(xué)習(xí)項目超過50%甚至更多的時間,正如圈里的話所說“數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)訓(xùn)練全過程的上限,而模型和算法只是逼近這個上限而已”。
對于機(jī)器學(xué)習(xí)后續(xù)的建模、訓(xùn)練中的難點(diǎn)我們暫且不談,而只是為了這個開始階段,我們就可以看到,人在其中的作用仍然是巨大的,至少今天的AI還沒有能夠達(dá)到自主選擇特征值、自己處理數(shù)據(jù)等智能性。
因此,可以說,人工智能是人的知識、經(jīng)驗與機(jī)器的存儲、計算能力的融合,共同解決生產(chǎn)中的實際問題,因此,這里的評價應(yīng)該是人與機(jī)器各自發(fā)揮各自的優(yōu)勢,但是,的確如果沒有人的前期處理,特征選擇與提取,就無法實現(xiàn)一個高質(zhì)量的人工智能應(yīng)用,不管是機(jī)器學(xué)習(xí),還是深度學(xué)習(xí),其實,前期這個工作都是由人的智慧來發(fā)揮關(guān)鍵作用的,至少當(dāng)前的狀態(tài)是如此。