å·¥æ¥(yè)大數(shù)據(jù)çš„ç†è«–體系
人們關(guÄn)注工æ¥(yè)大數(shù)據(jù)的終極目標(biÄo)是創(chuà ng)é€ åƒ¹(jià )å€¼ï¼Œæ–¹å‘æ˜¯æå‡æ™ºèƒ½åŒ–ï¼Œæ ¸å¿ƒå•(wèn)題是知è˜(shÃ)çš„ç²å–和應(yÄ«ng)ç”¨ã€‚å› æ¤ï¼Œäº†è§£æˆ°(zhà n)略和戰(zhà n)è¡“(shù)之間的關(guÄn)系是用好大數(shù)據(jù)的關(guÄn)éµã€‚本文出自微信公眾號(hà o)《蟈蟈創(chuà ng)新隨ç†ã€‹ï¼Œä½œè€…通éŽ(guò)ä¸åŒè¦–角,就工æ¥(yè)大數(shù)據(jù)çš„ç†è«–體系作出了闡述。
æ–‡/éƒæœæš‰
有個(gè)å•(wèn)題一直困惑著我:“å·¥æ¥(yè)大數(shù)據(jù)”到底該講什么,æ‰ä¸è‡³äºŽä»¥å概全?或者說(shuÅ),ç†è«–體系應(yÄ«ng)該包å«å“ªäº›å…§(nèi)å®¹ï¼Ÿä¸‹é¢æ˜¯æˆ‘想到的一點(diÇŽn)原則性的觀點(diÇŽn)——å¯ä»¥å¾žå“ªäº›è¦–角看待它。
1.å·¥æ¥(yè)大數(shù)據(jù)çš„æ„義
從DIKW體系的角度看,大數(shù)據(jù)將人類(lèi)帶入智能社會(huì)。大數(shù)據(jù)å¤ æŠŠäººé¡ž(lèi)帶入智能社會(huì)çš„æ ¸å¿ƒå„ª(yÅu)å‹¢(shì)在于“知è˜(shÃ)”的生產(chÇŽn)和應(yÄ«ng)用。我們把智能ç†è§£ç‚º“æ„ŸçŸ¥ã€æ±ºç–和執(zhÃ)行”的統(tÇ’ng)一,則大數(shù)據(jù)能很好地æä¾›“感知”å’Œ“決疔所需è¦çš„知è˜(shÃ)。
2.大數(shù)據(jù)與æ¥(yè)å‹™(wù)系統(tÇ’ng)的關(guÄn)ç³»
很多人把數(shù)據(jù)和大數(shù)據(jù)的概念混淆起來(lái)。一個(gè)典型的表ç¾(xià n)是把æ¥(yè)å‹™(wù)系統(tÇ’ng)(如MESã€ERP)的功能說(shuÅ)æˆå¤§æ•¸(shù)據(jù)的應(yÄ«ng)用,似乎åªè¦æ•¸(shù)據(jù)都是大數(shù)據(jù)。在我看來(lái),æ¥(yè)å‹™(wù)系統(tÇ’ng)看數(shù)據(jù),å´(cè)é‡?cái)?shù)據(jù)用于完æˆç‰¹å®šæ¥(yè)å‹™(wù)的一次利用。數(shù)據(jù)作為信æ¯çš„載體,數(shù)據(jù)的生命周期相å°(duì)較çŸã€‚大數(shù)據(jù)則å´(cè)é‡?cái)?shù)據(jù)的二次利用或é‡å¾©(fù)利用,數(shù)據(jù)主è¦ä½œç‚ºçŸ¥è˜(shÃ)的載體。
3.大數(shù)據(jù)的特å¾
從甲乙方的視角看,甲乙雙方看待大數(shù)據(jù)çš„ç‰¹å¾æ˜¯ä¸åŒçš„。其ä¸ï¼Œç”²æ–¹å°±æ˜¯å¸Œæœ›é€šéŽ(guò)大數(shù)據(jù)創(chuà ng)é€ åƒ¹(jià )å€¼ã€æ”¹é€²(jìn)æ¥(yè)å‹™(wù)çš„æ¥(yè)å‹™(wù)人員,而乙方是幫助甲方實(shÃ)ç¾(xià n)目標(biÄo)çš„IT技術(shù)人員。
大數(shù)據(jù)的甲方視角有三個(gè)特å¾ï¼ˆæ¨£æœ¬=全體ã€ç›¸é—œ(guÄn)éžå› æžœã€æ··é›œæ€§ï¼‰ï¼Œéƒ½èˆ‡ç²å–知è˜(shÃ)相關(guÄn)。而ç²å–了知è˜(shÃ)æ‰èƒ½å‰µ(chuà ng)é€ åƒ¹(jià )值。大數(shù)據(jù)的乙方視角峓4V特徔,這四個(gè)特å¾é—œ(guÄn)注的是IT技術(shù)人員數(shù)據(jù)處ç†çš„困難。
顯然,乙方的工作應(yÄ«ng)該æœå¾žç”²æ–¹çš„æ¥(yè)å‹™(wù)需求。從這個(gè)æ„義上講,乙方å¯èƒ½é‡åˆ°4V涉åŠçš„困難ã€ä¹Ÿå¯èƒ½é‡ä¸åˆ°ï¼Œè¦–甲方的實(shÃ)際情æ³è€Œå®šã€‚æˆ‘è¬›çš„èª²ä¸»è¦æ˜¯ç”²æ–¹è¦–角,而ITå°ˆ(zhuÄn)æ¥(yè)äººå£«è¬›çš„èª²ä¸»è¦æ˜¯ä¹™æ–¹è¦–角。
4.大數(shù)據(jù)與知è˜(shÃ)ç²å–çš„å¯è¡Œæ€§
從甲方視角看,大數(shù)據(jù)的價(jià )值在于產(chÇŽn)生知è˜(shÃ)。人們經(jÄ«ng)常æåˆ°çš„大數(shù)據(jù)的幾個(gè)特å¾ï¼ˆæ¨£æœ¬=全體ã€ç›¸é—œ(guÄn)éžå› æžœã€æ··é›œæ€§ï¼‰ï¼Œéƒ½å¯ä»¥æ¸çµ(jié)為便于ç²å¾—知è˜(shÃ)。
(1)樣本=全體。人類(lèi)的一切知è˜(shÃ)都來(lái)æºäºŽæ·å²ï¼Œå¦‚果大數(shù)據(jù)èƒ½å¤ å®Œæ•´åœ°è¨˜éŒ„æ·å²ï¼Œå°±æœƒ(huì)蘊(yùn)å«çŸ¥è˜(shÃ),這一點(diÇŽn)å¼·(qiáng)調(dià o)的是樣本分布的完整性。
(2ï¼‰ä¸æ‹˜æ³¥äºŽå› 果。一般說(shuÅ)法是“相關(guÄn)é—œ(guÄn)系而éžå› 果關(guÄn)ç³»”,而我將其改為“䏿‹˜æ³¥äºŽå› æžœ”。人類(lèi)的知è˜(shÃ)有很多種,一種是說(shuÅ)ä¸å‡ºä¾†(lái)çš„“默會(huì)知è˜(shÃ)”,å¦ä¸€ç¨®æ˜¯èªª(shuÅ)得清楚的知è˜(shÃ),而說(shuÅ)得清楚的知è˜(shÃ)åˆåŒ…括ç†è«–知è˜(shÃ)和經(jÄ«ng)é©—(yà n)知è˜(shÃ)。其ä¸ï¼Œç†è«–知è˜(shÃ)æ˜¯è¬›ç©¶å› æžœçš„ï¼Œå¦‚æžœæŠŠçŸ¥è˜(shÃ)æ‹˜æ³¥äºŽå› æžœå‰‡æ˜¯ä¸å®Œå‚™çš„。所以,“䏿‹˜æ³¥äºŽå› æžœ”解決了知è˜(shÃ)完整性å•(wèn)題。
(3)混雜性。本質(zhì)是知è˜(shÃ)çš„å¯ç²å¾—ã€å¯é©—(yà n)è‰æ€§ï¼Œä¿è‰çŸ¥è˜(shÃ)的質(zhì)é‡ã€‚ç²å¾—知è˜(shÃ)的一個(gè)本質(zhì)è¦æ±‚是å€(qÅ«)分å¶ç„¶è¯(lián)系和éžå¶ç„¶è¯(lián)系,雜性å¯ä»¥ç”¨äºŽè§£æ±ºé€™å€‹(gè)å•(wèn)題。
æ›å¥è©±èªª(shuÅ),這三個(gè)特點(diÇŽn)ä¿è‰äº†çŸ¥è˜(shÃ)çš„å˜åœ¨æ€§ã€å®Œæ•´æ€§å’Œå¯ç²å¾—性,這就是大數(shù)據(jù)çš„æ„ç¾©æ‰€åœ¨ã€‚æ™ºèƒ½åˆ¶é€ éœ€è¦çŸ¥è˜(shÃ)æ‰èƒ½å½¢æˆé–‰ç’°(huán)ã€äº’è¯(lián)ç¶²(wÇŽng)å¯ä»¥è®“知è˜(shÃ)的價(jià )å€¼æ”¾å¤§ã€‚æ‰€ä»¥ï¼Œåœ¨æ™ºèƒ½åˆ¶é€ ã€å·¥æ¥(yè)互è¯(lián)ç¶²(wÇŽng)的背景下,大數(shù)據(jù)的價(jià )值猛增。
5.知è˜(shÃ)類(lèi)型的角度
我一直èª(rèn)為,大數(shù)據(jù)的價(jià )值在于ç²å¾—ã€å˜å„²(chÇ”)å’Œé‹(yùn)用知è˜(shÃ)的能力。而“知è˜(shÃ)”å¯ä»¥åˆ†é¡ž(lèi)å¯ä»¥å¾žå¤šå€‹(gè)ç¶åº¦ä¾†(lái)看。
(1)默會(huì)知è˜(shÃ)ã€ç¶“(jÄ«ng)é©—(yà n)知è˜(shÃ)ã€ç†è«–知è˜(shÃ)。
默會(huì)知è˜(shÃ)就是說(shuÅ)䏿¸…楚ã€é›£ä»¥è®Šæˆç¨‹åºä»£ç¢¼çš„æ„Ÿæ€§çŸ¥è˜(shÃ)。感性知è˜(shÃ)之外的經(jÄ«ng)é©—(yà n)知è˜(shÃ),這些知è˜(shÃ)說(shuÅ)得清楚怎么åšï¼Œä¸ä¸€å®šéœ€è¦èªª(shuÅ)æ˜ŽåŽŸå› ã€‚å¦‚æŸç¨®æ–¹æ³•較好ã€å“ªæ¢è·¯èµ°çš„快牗—實(shÃ)際上好就是好了,ä¸ä¸€å®šéœ€è¦è§£é‡‹ã€‚ç†è«–知è˜(shÃ)就是說(shuÅ)å¾—æ¸…æ¥šåŽŸå› ã€å¯ä»¥è§£é‡‹ã€ç”šè‡³å¯è¨ˆ(jì)算的知è˜(shÃ)。
大數(shù)據(jù)的優(yÅu)å‹¢(shì)在于å¯ä»¥æ›´å®¹æ˜“地ç²å¾—默會(huì)和經(jÄ«ng)é©—(yà n)知è˜(shÃ)。éŽ(guò)去計(jì)算機(jÄ«)用到的知è˜(shÃ),往往需è¦äººå€‘寫(xiÄ›)æˆä»£ç¢¼ï¼Œä½†é€™åªæ˜¯äººå€‘大腦ä¸çš„一部分知è˜(shÃ)。單純ä¾é ç†æ€§çŸ¥è˜(shÃ),難以實(shÃ)ç¾(xià n)智能化。
(2)æ£å‘知è˜(shÃ)ã€é€†å‘知è˜(shÃ)
å¾žåŽŸå› åˆ°çµ(jié)果的知è˜(shÃ),我稱(chÄ“ng)之為“æ£å‘知è˜(shÃ)”。數(shù)å¸(xué)建模éŽ(guò)程就是建立æ£å‘知è˜(shÃ)。從çµ(jié)æžœåˆ°åŽŸå› çš„çŸ¥è˜(shÃ),我稱(chÄ“ng)為“逆å‘知è˜(shÃ)”——æ‰€è¬‚çš„æ ¹å› åˆ†æžã€‚
(3)è¯(lián)系型知è˜(shÃ)ã€è¨(shè)計(jì)型知è˜(shÃ)
å› æžœçŸ¥è˜(shÃ)ã€æ„Ÿæ€§çŸ¥è˜(shÃ)ç‰é«”ç¾(xià n)的是信æ¯ä¹‹é–“çš„è¯(lián)系,而è¨(shè)計(jì)型知è˜(shÃ)指的是產(chÇŽn)å“ã€å·¥è—è¨(shè)計(jì)ç‰ã€‚è¨(shè)計(jì)型知è˜(shÃ)å 用的計(jì)算機(jÄ«)å˜å„²(chÇ”)é‡å¾ˆå¤§ã€‚在大數(shù)據(jù)時(shÃ)代,è¨(shè)計(jì)型知è˜(shÃ)容易å˜å„²(chÇ”)ã€è™•ç†ã€‚
6.大數(shù)據(jù)ç²å¾—知è˜(shÃ)的途徑
用大數(shù)據(jù)ç²å¾—知è˜(shÃ)有兩種方å¼ï¼Œä¸€ç¨®å°±æ˜¯æ•¸(shù)據(jù)本身就承載知è˜(shÃ),å¦ä¸€ç¨®æ˜¯æ•¸(shù)據(jù)承載的是信æ¯ã€éœ€è¦å¾žæ•¸(shù)據(jù)æç…‰å‡ºçŸ¥è˜(shÃ)。
第一種典型的例å就是產(chÇŽn)å“è¨(shè)計(jì)數(shù)據(jù)ã€å„種標(biÄo)準(zhÇ”n)ã€æˆåŠŸæ¡ˆä¾‹ç‰ã€‚快速響應(yÄ«ng)ã€å€‹(gè)æ€§åŒ–å®šåˆ¶çš„å‰æå’Œæ‰‹æ®µï¼Œå°±æ˜¯çŸ¥è˜(shÃ)的共享。å°(duì)于這些知è˜(shÃ),有時(shÃ)候會(huì)é¢è‡¨çš„困難之一是如何找到它們,而找到這些知è˜(shÃ)本身就å¯èƒ½æ˜¯éœ€è¦ç²å¾—的知è˜(shÃ)ï¼Œå¦‚è°·æŒæœç´¢ã€‚AI算法å°(duì)解決這個(gè)å•(wèn)題å¯èƒ½æ˜¯æœ‰ç”¨çš„。
第二種知è˜(shÃ)是å‰é¢èªª(shuÅ)的通éŽ(guò)å»ºæ¨¡æˆ–æ ¹å› åˆ†æžå¾—到的知è˜(shÃ)。工æ¥(yè)上å°(duì)知è˜(shÃ)是有明確需求的ã€ä»¥è‡³äºŽé›£ä»¥é”(dá)到,但機(jÄ«)ç†å»æ˜¯ç›¸å°(duì)明確的。我談的很多方法論,其實(shÃ)就是在這兩個(gè)æ–¹é¢çš„。
7.通éŽ(guò)大數(shù)據(jù)ç²å¾—價(jià )值
從æŸç¨®æ„義上說(shuÅ),大數(shù)據(jù)創(chuà ng)é€ åƒ¹(jià )值是促進(jìn)知è˜(shÃ)創(chuà ng)é€ åƒ¹(jià )值。這些知è˜(shÃ)è¦ç”¨åœ¨æé«˜è³ª(zhì)é‡ã€æ•ˆçŽ‡ï¼Œé™ä½Žæˆæœ¬ç‰å…·é«”å•(wèn)題上,æ‰èƒ½å‰µ(chuà ng)é€ åƒ¹(jià )值。
人們é‡åˆ°çš„真æ£å›°æƒ‘是如何找到這些“å•(wèn)題”。這些å•(wèn)題大概å¯ä»¥åˆ†æˆå…©é¡ž(lèi):一類(lèi)是ç¾(xià n)有æ¥(yè)å‹™(wù)的痛點(diÇŽn),å¦ä¸€é¡ž(lèi)是轉(zhuÇŽn)åž‹å‡ç´š(jÃ)åŽé¢è‡¨æ–°çš„è¦æ±‚。
å°(duì)于æ¥(yè)å‹™(wù)“痛點(diÇŽn)”,往往是“該åšçš„都åšäº†ï¼Œå‰©ä¸‹çš„往往是難以åšçš„。”所以,難以找到åˆé©çš„å•(wèn)題。å°(duì)于這類(lèi)困惑,大數(shù)據(jù)åªæ˜¯æ‰‹æ®µä¹‹ä¸€ã€‚往往è¦ç¶œåˆé‹(yùn)用å„種手段,大數(shù)據(jù)æ‰èƒ½çµ¦å‰µ(chuà ng)é€ åƒ¹(jià )值。
å°(duì)于å¦ä¸€é¡ž(lèi)困惑,往往是æ¥(yè)å‹™(wù)本身或外部變化引發(fÄ)的。例如,采用了新的生產(chÇŽn)æ–¹å¼æˆ–技術(shù)手段ã€ç”¨æˆ¶(hù)å°(duì)質(zhì)é‡è¦æ±‚æé«˜äº†ã€æ•¸(shù)å—化水平æé«˜äº†ã€ä¼æ¥(yè)çš„æ¥(yè)å‹™(wù)é‡å¿ƒè½‰(zhuÇŽn)移了(創(chuà ng)æ–°å’Œæœå‹™(wù)的比é‡å¢žå¤§äº†ï¼‰ç‰ç‰ã€‚這些變化,我統(tÇ’ng)稱(chÄ“ng)為“轉(zhuÇŽn)åž‹å‡ç´š(jÃ)”。å°(duì)于這類(lèi)æ–°çš„å•(wèn)題,大數(shù)據(jù)方法比較容易發(fÄ)æ®ä½œç”¨ã€‚
數(shù)據(jù)åˆ†æžæ›¾ç¶“(jÄ«ng)被èª(rèn)為是“æ²’(méi)有辦法的辦法”。我把最近çªç„¶è®Šç†±çš„åŽŸå› ï¼Œæ¸çµ(jié)åˆ°æ™ºèƒ½åˆ¶é€ ç›¸é—œ(guÄn)技術(shù)引發(fÄ)çš„ä¼æ¥(yè)轉(zhuÇŽn)åž‹å‡ç´š(jÃ)。這時(shÃ),大數(shù)據(jù)技術(shù)進(jìn)入了一個(gè)è—(lán)æµ·ï¼ŒåŽŸå› ä¸åƒ…是ç²å¾—知è˜(shÃ)更方便ç‰åŽŸå› ï¼Œæ›´æ˜¯çŸ¥è˜(shÃ)的放大,把知è˜(shÃ)變æˆè¨ˆ(jì)算機(jÄ«)å¯åŸ·(zhÃ)行的代碼ã€å¯¦(shÃ)ç¾(xià n)人機(jÄ«)知è˜(shÃ)的共享,知è˜(shÃ)在互è¯(lián)ç¶²(wÇŽng)上實(shÃ)ç¾(xià n)共享,都會(huì)讓知è˜(shÃ)的價(jià )值å€å¢žã€‚從而讓“知è˜(shÃ)生產(chÇŽn)”的經(jÄ«ng)濟(jì)性大大æå‡ã€‚
總體上看,轉(zhuÇŽn)åž‹å‡ç´š(jÃ)是戰(zhà n)ç•¥å•(wèn)題,大數(shù)據(jù)應(yÄ«ng)用是戰(zhà n)è¡“(shù)å•(wèn)題。戰(zhà n)ç•¥é‡é»ž(diÇŽn)的改變,æ‰èƒ½çµ¦å¤§æ•¸(shù)據(jù)的應(yÄ«ng)用創(chuà ng)é€ æ¢ä»¶ã€‚å¦å‰‡ï¼Œå†å¥½çš„æŠ€è¡“(shù)都å¯èƒ½æˆç‚ºå± é¾ä¹‹æŠ€ã€‚
8.大數(shù)據(jù)建模分æžçš„æ–¹æ³•è«–
談到大數(shù)據(jù)分æžèˆ‡å»ºæ¨¡ï¼Œå¾ˆå¤šäººé¦¬ä¸Šæƒ³åˆ°å„種算法。在我看來(lái),å°(duì)數(shù)據(jù)分æžèˆ‡å»ºæ¨¡å•(wèn)題來(lái)說(shuÅ),算法å•(wèn)題其實(shÃ)是戰(zhà n)è¡“(shù)å•(wèn)題——也就是說(shuÅ)ï¼Œé‚„éœ€è¦æœ‰å€‹(gè)戰(zhà n)ç•¥å•(wèn)題,用來(lái)決定分æžä»€ä¹ˆå•(wèn)題ã€åˆ†æžå•(wèn)題的次åºå’Œè·¯å¾‘ç‰ã€‚CRISP_DM就是這個(gè)層é¢ä¸Šçš„é‚輯。我還想將其é‚輯進(jìn)一æ¥ç°¡(jiÇŽn)化——明確æ¥(yè)å‹™(wù)éœ€æ±‚ã€æ•¸(shù)據(jù)åˆ†æžæ–¹æ³•ã€åˆ†æžå•(wèn)題的具體算法。