時(shÃ)間:2018-05-17 17:11:36來(lái)æºï¼šç¶²(wÇŽng)絡(luò)轉(zhuÇŽn)載
計(jì)算機(jÄ«)å°(duì)主觀題的自動(dòng)è©•(pÃng)閱準(zhÇ”n)確與å¦ï¼Œä¸»è¦å–決于其å°(duì)文本相似度的計(jì)ç®—æ˜¯å¦æº–(zhÇ”n)確。由于文本相似度計(jì)算在文檔復(fù)制檢查ã€ä¿¡æ¯æª¢ç´¢å’Œæ©Ÿ(jÄ«)器翻è¯ç‰é ˜(lÇng)域都有å分廣泛的應(yÄ«ng)用,所以,近年來(lái)有越來(lái)越多的å¸(xué)è€…è‡´åŠ›äºŽæ–‡æœ¬ç›¸ä¼¼åº¦ç®—æ³•çš„ç ”ç©¶ã€‚ç¸½é«”ä¾†(lái)看,文本相似度的計(jì)算方法主è¦åˆ†ç‚ºå…©å¤§é¡ž(lèi):一類(lèi)是基于統(tÇ’ng)計(jì)å¸(xué)的計(jì)算方法,æ¤ç¨®æ–¹æ³•需è¦å¤§è¦(guÄ«)模的語(yÇ”)料庫(kù),并且在計(jì)算時(shÃ)æ²’(méi)有考慮文本的å¥åçµ(jié)æ§‹(gòu)ä¿¡æ¯å’Œèªž(yÇ”)義信æ¯ï¼Œè¨ˆ(jì)ç®—çš„çµ(jié)果有時(shÃ)會(huì)與人å°(duì)自然語(yÇ”)言的ç†è§£ä¸ç›¸ç¬¦åˆï¼›å¦ä¸€é¡ž(lèi)是基于語(yÇ”)義ç†è§£çš„計(jì)算方法,這種方法ä¸éœ€è¦å¤§è¦(guÄ«)模的語(yÇ”)料庫(kù),但需è¦ä¾è³´(là i)于具有層次çµ(jié)æ§‹(gòu)é—œ(guÄn)系的語(yÇ”)義詞典,計(jì)ç®—çµ(jié)果相å°(duì)準(zhÇ”n)確,與人å°(duì)自然語(yÇ”)言的ç†è§£è¼ƒç‚ºç¬¦åˆã€‚下é¢ä»‹ç´¹å¹¾ç¨®ç¶“(jÄ«ng)典的文本相似度計(jì)算方法,并å°(duì)他們å„自的性能進(jìn)行簡(jiÇŽn)è¦çš„分æžã€‚
1ã€åŸºäºŽå‘é‡ç©ºé–“模型的計(jì)算方法
å‘é‡ç©ºé–“模型簡(jiÇŽn)稱(chÄ“ng)VSM,是VectorSpaceModel的縮寫(xiÄ›),是近些年使用效果較好ã€ä¸”應(yÄ«ng)ç”¨è¼ƒç‚ºå»£æ³›çš„ä¸€ç¨®ä¿¡æ¯æª¢ç´¢æ¨¡åž‹ã€‚åœ¨æ¤æ¨¡åž‹ä¸ï¼Œæ–‡æœ¬è¢«çœ‹ä½œæ˜¯ç”±ä¸€ç³»åˆ—相互ç¨(dú)立的詞語(yÇ”)組æˆçš„,若文檔Dä¸åŒ…å«è©žèªž(yÇ”)t1,t2,…,tN,則文檔表示為D(t1,t2,…,tN)。由于文檔ä¸è©žèªž(yÇ”)å°(duì)文檔的é‡è¦ç¨‹åº¦ä¸åŒï¼Œå¹¶ä¸”詞語(yÇ”)çš„é‡è¦ç¨‹åº¦å°(duì)文本相似度的計(jì)ç®—æœ‰å¾ˆå¤§çš„å½±éŸ¿ï¼Œå› è€Œå¯å°(duì)文檔ä¸çš„æ¯å€‹(gè)詞語(yÇ”)賦以一個(gè)權(quán)值w,以表示該詞的權(quán)é‡ï¼Œå…¶è¡¨ç¤ºå¦‚下:D(t1,w1ï¼›t2,w2;…,tN,wN),å¯ç°¡(jiÇŽn)記為D(w1,w2,…,wNï¼‰ï¼Œæ¤æ™‚(shÃ)çš„wkå³ç‚ºè©žèªž(yÇ”)tk的權(quán)é‡ï¼Œ1≤k≤N。這樣,就把文本表示æˆäº†å‘é‡çš„å½¢å¼ï¼ŒåŒæ™‚(shÃ)兩文本的相似度å•(wèn)題也就å¯ä»¥é€šéŽ(guò)å…©å‘é‡ä¹‹é–“的夾角大å°ä¾†(lái)計(jì)算了,夾角越大,兩文本的相似度就越低。
基于å‘é‡ç©ºé–“模型的計(jì)算方法å‡è¨(shè)文本ä¸çš„詞語(yÇ”)是相互ç¨(dú)ç«‹çš„ï¼Œå› è€Œå¯ä»¥ç”¨å‘é‡çš„å½¢å¼ä¾†(lái)表示,這種表示方法簡(jiÇŽn)化了文本ä¸è©žèªž(yÇ”)之間的復(fù)雜關(guÄn)系,也使得文本的相似程度變得å¯ä»¥è¨ˆ(jì)算了。å‘é‡è¡¨ç¤ºæ–¹æ³•ä¸è©žèªž(yÇ”)的權(quán)值應(yÄ«ng)è©²èƒ½å¤ é¡¯ç¤ºå‡ºè©²è©žèªž(yÇ”)å°(duì)整個(gè)文本的é‡è¦ç¨‹åº¦ï¼Œä¸€èˆ¬ç”¨ç¶“(jÄ«ng)éŽ(guò)çµ±(tÇ’ng)計(jì)å¾—åˆ°çš„è©žé »ä¾†(lái)表示;å‘é‡çš„æ‰€æœ‰åˆ†é‡çµ„åˆåœ¨ä¸€èµ·ï¼Œæ‡‰(yÄ«ng)è©²èƒ½å¤ ?qÅ«)⒋宋谋ä¹c其他文本å€(qÅ«)分開(kÄi)。
大é‡çµ±(tÇ’ng)計(jì)çµ(jié)果表明,文本ä¸å‡ºç¾(xià n)次數(shù)最多的詞語(yÇ”)å¾€å¾€æ˜¯åæ˜ å¥å語(yÇ”)法çµ(jié)æ§‹(gòu)çš„è™›è©žä»¥åŠæ–‡æœ¬ä½œè€…想è¦é—¡è¿°æŸå€‹(gè)å•(wèn)題時(shÃ)æ‰€ç”¨çš„æ ¸å¿ƒè©žï¼Œå¦‚æžœæ˜¯åœç¹žåŒä¸€æ ¸å¿ƒå•(wèn)é¡Œçš„æ–‡æœ¬ï¼Œå…¶æ ¸å¿ƒè©žåŒ¯æ‡‰(yÄ«ng)該是類(lèi)似的,所以這兩類(lèi)詞å°(duì)文本相似度的計(jì)算都是沒(méi)æœ‰ç”¨çš„ã€‚å› æ¤ï¼Œæœ€é«˜é »è©žå’Œä½Žé »è©žéƒ½ä¸é©å®œåšæ–‡æœ¬çš„ç‰¹å¾è©žï¼Œåªæœ‰è©žé »ä»‹äºŽæœ€é«˜é »å’Œä½Žé »ä¹‹é–“的這部分詞匯æ‰é©åˆåšç‰¹å¾è©žã€‚
在文本ä¸å‡ºç¾(xià n)é »çŽ‡è¼ƒé«˜çš„è©žèªž(yÇ”)應(yÄ«ng)該具有較高的權(quán)å€¼ï¼Œå› æ¤ï¼Œåœ¨è¨ˆ(jì)算詞語(yÇ”)å°(duì)文本的權(quán)釿™‚(shÃ),應(yÄ«ng)考慮詞語(yÇ”)在文本ä¸çš„出ç¾(xià n)é »çŽ‡ï¼Œè¨˜ç‚ºtfã€‚åƒ…è€ƒæ…®é€™ä¸€é …(xià ng)是ä¸å¤ 的,如果æŸä¸€è©žèªž(yÇ”)ä¸åƒ…在一個(gè)文本ä¸å‡ºç¾(xià n),而是在文本集ä¸çš„很多個(gè)文本ä¸éƒ½æœ‰å‡ºç¾(xià n),例如“的â€å—åœ¨ä¸æ–‡æ–‡æœ¬ä¸çš„出ç¾(xià n)é »çŽ‡æ‡‰(yÄ«ng)該是相當(dÄng)高的,但它å°(duì)于我們å€(qÅ«)分å„個(gè)文本是沒(méi)有幫助的,也就是說(shuÅ),這樣的詞語(yÇ”)是ä¸å…·å‚™é‘’åˆ¥èƒ½åŠ›çš„ã€‚å› è€Œï¼Œåœ¨è¨ˆ(jì)算詞語(yÇ”)權(quán)釿™‚(shÃ)還應(yÄ«ng)考慮詞語(yÇ”)çš„æ–‡æª”é »çŽ‡ï¼ˆdf),å³å«æœ‰è©²è©žçš„æ–‡æª”數(shù)é‡ã€‚由于詞語(yÇ”)的權(quán)é‡èˆ‡æ–‡æª”é »çŽ‡æˆå比,åˆå¼•å‡ºèˆ‡æ–‡æª”é »çŽ‡æˆå比關(guÄn)ç³»çš„å€’ç½®æ–‡æª”é »çŽ‡ï¼ˆidf),其計(jì)ç®—å…¬å¼ç‚ºidf=logN/n(其ä¸N為文檔集ä¸å…¨éƒ¨æ–‡æª”的數(shù)é‡ï¼Œnç‚ºåŒ…å«æŸè©žèªž(yÇ”)的文檔數(shù))。由æ¤å¾—出特å¾è©žt在文檔Dä¸çš„æ¬Š(quán)é‡weight(t,D)=tf(t,D)*idf(t)。用tf*idfå…¬å¼è¨ˆ(jì)算特å¾é …(xià ng)的權(quán)é‡ï¼Œæ—¢æ³¨é‡äº†è©žèªž(yÇ”)在文本ä¸çš„é‡è¦æ€§ï¼Œåˆæ³¨é‡äº†è©žçš„é‘’åˆ¥èƒ½åŠ›ã€‚å› æ¤,有較高的tf*idf值的詞在文檔ä¸ä¸€å®šæ˜¯é‡è¦çš„,åŒæ™‚(shÃ)它一定在其它文檔ä¸å‡ºç¾(xià n)å¾ˆå°‘ã€‚å› æ¤æˆ‘們å¯ä»¥é€šéŽ(guò)這種方法來(lái)鏿“‡æŠŠé‚£äº›è©žèªž(yÇ”)作為文本å‘é‡çš„特å¾è©žã€‚
特å¾è©žé¸æ“‡å‡ºä¾†(lái)之åŽï¼Œå°±èƒ½ç¢ºå®šæ–‡æœ¬çš„å‘é‡è¡¨ç¤ºäº†ï¼Œæœ‰äº†æ–‡æœ¬å‘é‡ï¼Œæˆ‘們就å¯ä»¥é€šéŽ(guò)æ¤å‘é‡è¨ˆ(jì)算文本的相似度了。相似度的計(jì)算方法很多,其ä¸åŒ…括:
å…§(nèi)ç©æ³•(InnerProduct)
余弦法(Cosine)
Dice系數(shù)法(DiceCoefficient)
Jaccard系數(shù)法(JaccardCoefficient)
2ã€åŸºäºŽæ¼¢æ˜Žè·é›¢çš„計(jì)算方法
上述方法是基于å‘é‡ç©ºé–“技術(shù)的,把文本表示æˆç©ºé–“ä¸çš„å‘é‡ï¼Œé€šéŽ(guò)計(jì)ç®—å‘é‡ä¹‹é–“的夾角來(lái)得出文本之間的相似程度。而基于漢明è·é›¢çš„æ–‡æœ¬ç›¸ä¼¼åº¦è¨ˆ(jì)算方法與上述方法ä¸åŒï¼Œä¸æ˜¯åŸºäºŽå‘é‡ç©ºé–“技術(shù),而是ä¾è³´(là i)于編碼ç†è«–ä¸çš„æ¼¢æ˜Žè·é›¢ï¼Œé€šéŽ(guò)計(jì)算兩文本之間的漢明è·é›¢ä¾†(lái)計(jì)算兩文本的相似度。æ¤ç¨®æ–¹æ³•的優(yÅu)點(diÇŽn)在于é‹(yùn)ç®—éŽ(guò)程比較簡(jiÇŽn)便。
首先介紹一下什么是編碼ç†è«–ä¸çš„æ¼¢æ˜Žè·é›¢ã€‚漢明è·é›¢æ˜¯æè¿°å…©å€‹(gè)é•·(zhÇŽng)度為n的碼å—之間的è·é›¢ï¼Œä¾‹å¦‚計(jì)算碼å—x=(x1x2…xi…xn)與y=(y1y2…yi…yn)之間的è·é›¢ï¼Œå…¶è¨ˆ(jì)ç®—å…¬å¼å¦‚下:
å…¶ä¸é‹(yùn)算符號(hà o)⊕表示模2åŠ é‹(yùn)算,xiå’Œyiçš„å–值為0或1。通éŽ(guò)æ¤å…¬å¼è¨ˆ(jì)算得出的數(shù)據(jù)D(x,y)表示的是碼å—x與yä¸ä¸åŒç¬¦è™Ÿ(hà o)的數(shù)ç›®ï¼Œä¹Ÿå°±åæ˜ 出了碼å—x與y之間的差異,D(x,y)值越大說(shuÅ)明兩個(gè)碼å—相似程度越低。
åˆ©ç”¨æ¤æ–¹æ³•計(jì)算文本之間的相似度時(shÃ),首先æå–出文本的一些相關(guÄn)ä¿¡æ¯ï¼Œä¾‹å¦‚æ–‡ä¸çš„é—œ(guÄn)éµå—ç‰ï¼Œç„¶åŽå°‡å…¶æŽ’列æˆå—碼形å¼ï¼Œæ–‡æœ¬çš„ä¿¡æ¯å°±é€šéŽ(guò)這些å—碼表ç¾(xià n)出來(lái)ï¼Œå½¢æˆæ–‡æœ¬èˆ‡å—碼的一一å°(duì)應(yÄ«ng)é—œ(guÄn)系。例如,文本Då°±å¯ä»¥è¡¨ç¤ºæˆD=(10100111001101011),其ä¸çš„0å’Œ1表示的是其所在ä½ç½®å°(duì)應(yÄ«ng)的文本信æ¯åœ¨æ–‡æœ¬ä¸çš„狀態(tà i),如果0表示文本D在其å°(duì)應(yÄ«ng)ä½ç½®ä¸Šçš„ä¿¡æ¯æ˜¯ä¸å˜åœ¨çš„,那么1就表示文本D在其å°(duì)應(yÄ«ng)ä½ç½®ä¸Šçš„ä¿¡æ¯æ˜¯å˜åœ¨çš„ï¼›åéŽ(guò)來(lái)表示也是å¯ä»¥çš„ã€‚æ ¹æ“š(jù)上é¢çš„闡述我們就å¯ä»¥å¾ˆå®¹æ˜“的將文本表示æˆç¢¼å—的形å¼ï¼Œæƒ³è¦æ±‚出兩個(gè)文本之間的相似度,就å¯ä»¥ä¾æ“š(jù)上é¢å…¬å¼çš„計(jì)ç®—çµ(jié)果得出。如果碼å—的長(zhÇŽng)度為n,則通éŽ(guò)上述公å¼è¨ˆ(jì)算出的兩碼å—之間的è·é›¢å€¼æœƒ(huì)介于0å’Œn之間,當(dÄng)計(jì)ç®—çµ(jié)果為n時(shÃ),說(shuÅ)明兩文本的所有信æ¯å‡ä¸ç›¸åŒï¼Œå之,當(dÄng)çµ(jié)果為0時(shÃ),說(shuÅ)明兩文本的所有信æ¯éƒ½ç›¸åŒã€‚這樣的推算方法顯然很ä¸ç›´è§€ï¼Œè€Œä¸”如果n值ä¸åŒï¼Œæ–‡æœ¬ç›¸ä¼¼åº¦çš„大å°ä¹Ÿæœƒ(huì)很難比較。所以,我們首先è¦ç¢ºå®šæ•´å€‹(gè)文本集的碼å—集,然åŽå°‡æ¯å€‹(gè)文本表示æˆå…¶å°(duì)應(yÄ«ng)的碼å—,å°(duì)于文本D1=(x1x2…xi…xn)å’ŒD2=(y1y2…yi…yn),定義其相似度計(jì)ç®—å…¬å¼ç‚ºï¼š
å…¶ä¸ï¼Œxiå’Œyi分別為文本D1å’ŒD2å°(duì)應(yÄ«ng)的碼å—ä¸ç¬¬iä½çš„分é‡ï¼Œå…¶å€¼0或1,⊕ä»ç„¶æ˜¯æ¨¡2åŠ é‹(yùn)算,æ¤ç¨®é‹(yùn)ç®—å°(duì)計(jì)算機(jÄ«)來(lái)說(shuÅ),å分方便快æ·ã€‚é‹(yùn)用Sim(D1,D2)公å¼è¨ˆ(jì)算出來(lái)的文本相似度,其值介于0å’Œ1之間,當(dÄng)çµ(jié)æžœ0時(shÃ),說(shuÅ)明兩個(gè)文本完全ä¸ç›¸ä¼¼ï¼Œç•¶(dÄng)çµ(jié)果為1時(shÃ),說(shuÅ)明兩個(gè)文本很相似,符åˆäººå€‘æ£å¸¸çš„èª(rèn)知è¦(guÄ«)律。
基于漢明è·é›¢çš„æ–‡æœ¬ç›¸ä¼¼åº¦è¨ˆ(jì)算方法沒(méi)有用到基于å‘é‡ç©ºé–“技術(shù)ä¸ä½¿ç”¨çš„大é‡å¾©(fù)雜的é‹(yùn)ç®—ï¼Œåªæ˜¯ç”¨åˆ°è¨ˆ(jì)算機(jÄ«)é‹(yùn)算起來(lái)å分快æ·çš„æ¨¡2åŠ ç‰é‹(yùn)ç®—ï¼Œå› è€Œï¼Œè¨ˆ(jì)算速度比較快。å¦å¤–,這種方法所用的文本信æ¯ä¸åƒ…僅é™äºŽé—œ(guÄn)éµå—ç‰äº’相ç¨(dú)立的信æ¯ï¼Œæä¾›äº†è¯(lián)åˆçš„æè¿°æ–‡æœ¬ä¿¡æ¯çš„å¯èƒ½ã€‚ä½†æ˜¯ï¼Œå¦‚ä½•é¸æ“‡å’ŒæŽ’列文本信æ¯ï¼Œä½¿å…¶æ§‹(gòu)æˆèˆ‡æ–‡æœ¬ä¸€ä¸€å°(duì)應(yÄ«ng)的碼å—集åˆï¼Œæ˜¯é‹(yùn)ç”¨æ¤æ–¹æ³•進(jìn)行文本相似度計(jì)ç®—éŽ(guò)ç¨‹ä¸æœ‰å¾…于進(jìn)一æ¥ç ”究的難點(diÇŽn)å•(wèn)題。
3ã€åŸºäºŽèªž(yÇ”)義ç†è§£çš„計(jì)算方法
基于語(yÇ”)義ç†è§£çš„æ–‡æœ¬ç›¸ä¼¼åº¦è¨ˆ(jì)算方法與基于統(tÇ’ng)計(jì)å¸(xué)的計(jì)算方法ä¸åŒï¼Œæ¤æ–¹æ³•ä¸éœ€è¦å¤§è¦(guÄ«)模的語(yÇ”)料庫(kù),也ä¸éœ€è¦é•·(zhÇŽng)時(shÃ)間和大é‡çš„訓(xùn)練,一般需è¦ä¸€å€‹(gè)具有層次çµ(jié)æ§‹(gòu)é—œ(guÄn)系的語(yÇ”)ç¾©è©žå…¸ï¼Œä¾æ“š(jù)概念之間的上下ä½é—œ(guÄn)系或åŒç¾©é—œ(guÄn)系進(jìn)行計(jì)算。文本的相似性計(jì)算大多是ä¾è³´(là i)äºŽçµ„æˆæ¤æ–‡æœ¬çš„詞語(yÇ”),基于語(yÇ”)義ç†è§£çš„相似度計(jì)算方法也ä¸ä¾‹å¤–,一般都是通éŽ(guò)計(jì)算語(yÇ”)義çµ(jié)æ§‹(gòu)樹(shù)ä¸å…©è©žèªž(yÇ”)之間的è·é›¢ä¾†(lái)計(jì)算詞語(yÇ”)çš„ç›¸ä¼¼åº¦ã€‚å› æ¤ï¼Œä¸€èˆ¬æœƒ(huì)用到一些具有層次çµ(jié)æ§‹(gòu)é—œ(guÄn)系的語(yÇ”)義詞典,如WordNetã€HowNetã€åŒç¾©è©žè©žæž—ç‰ã€‚基于語(yÇ”)義詞典的文本相似度計(jì)算方法很多,有的通éŽ(guò)計(jì)算詞語(yÇ”)在WordNetä¸ç”±ä¸Šä¸‹ä½é—œ(guÄn)系所構(gòu)æˆçš„æœ€çŸè·¯å¾‘來(lái)計(jì)算詞語(yÇ”)çš„ç›¸ä¼¼åº¦ï¼›ä¹Ÿæœ‰çš„æ ¹æ“š(jù)兩詞語(yÇ”)在詞典ä¸çš„公共祖先çµ(jié)點(diÇŽn)所具有的最大信æ¯é‡ä¾†(lái)計(jì)算詞語(yÇ”)的相關(guÄn)度;國(guó)å…§(nèi)也有通éŽ(guò)知網(wÇŽng)或åŒç¾©è©žè©žæž—來(lái)計(jì)算詞語(yÇ”)的語(yÇ”)義相似度的方法。
標(biÄo)簽:
上一篇:英å¨é¨°MH500é›»æ¶²ä¼ºæœæ•…障速查...
下一篇:振動(dòng)å‚³æ„Ÿå™¨é¸æ“‡æŒ‡å—,如何é¸...
ä¸åœ‹(guó)傳動(dòng)ç¶²(wÇŽng)版權(quán)與å…責(zé)è²æ˜Žï¼šå‡¡æœ¬ç¶²(wÇŽng)注明[來(lái)æºï¼šä¸åœ‹(guó)傳動(dòng)ç¶²(wÇŽng)]的所有文å—ã€åœ–片ã€éŸ³è¦–å’Œè¦–é »æ–‡ä»¶ï¼Œç‰ˆæ¬Š(quán)å‡ç‚ºä¸åœ‹(guó)傳動(dòng)ç¶²(wÇŽng)(www.hysjfh.com)ç¨(dú)家所有。如需轉(zhuÇŽn)載請(qÇng)與0755-82949061è¯(lián)系。任何媒體ã€ç¶²(wÇŽng)站或個(gè)人轉(zhuÇŽn)載使用時(shÃ)é ˆæ³¨æ˜Žä¾†(lái)æºâ€œä¸åœ‹(guó)傳動(dòng)ç¶²(wÇŽng)â€ï¼Œé•å者本網(wÇŽng)將追究其法律責(zé)任。
本網(wÇŽng)轉(zhuÇŽn)載并注明其他來(lái)æºçš„稿件,å‡ä¾†(lái)自互è¯(lián)ç¶²(wÇŽng)或æ¥(yè)å…§(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuÇŽn)載請(qÇng)ä¿ç•™ç¨¿ä»¶ä¾†(lái)æºåŠä½œè€…ï¼Œç¦æ¢æ“…自篡改,é•è€…è‡ªè² (fù)版權(quán)法律責(zé)任。
相關(guÄn)資訊