熟女人妻水多爽中文字幕,国产精品鲁鲁鲁,隔壁的少妇2做爰韩国电影,亚洲最大中文字幕无码网站

技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國(guó)傳動(dòng)網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 【技術(shù)干貨】自然語(yǔ)言語(yǔ)義相似度計(jì)算方法

【技術(shù)干貨】自然語(yǔ)言語(yǔ)義相似度計(jì)算方法

時(shí)間:2018-05-17 17:11:36來(lái)源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語(yǔ):?總體來(lái)看,文本相似度的計(jì)算方法主要分為兩大類(lèi):一類(lèi)是基于統(tǒng)計(jì)學(xué)的計(jì)算方法,此種方法需要大規(guī)模的語(yǔ)料庫(kù),并且在計(jì)算時(shí)沒(méi)有考慮文本的句子結(jié)構(gòu)信息和語(yǔ)義信息,計(jì)算的結(jié)果有時(shí)會(huì)與人對(duì)自然語(yǔ)言的理解不相符合;另一類(lèi)是基于語(yǔ)義理解的計(jì)算方法,這種方法不需要大規(guī)模的語(yǔ)料庫(kù),但需要依賴(lài)于具有層次結(jié)構(gòu)關(guān)系的語(yǔ)義詞典,計(jì)算結(jié)果相對(duì)準(zhǔn)確,與人對(duì)自然語(yǔ)言的理解較為符合。

計(jì)算機(jī)對(duì)主觀題的自動(dòng)評(píng)閱準(zhǔn)確與否,主要取決于其對(duì)文本相似度的計(jì)算是否準(zhǔn)確。由于文本相似度計(jì)算在文檔復(fù)制檢查、信息檢索和機(jī)器翻譯等領(lǐng)域都有十分廣泛的應(yīng)用,所以,近年來(lái)有越來(lái)越多的學(xué)者致力于文本相似度算法的研究。總體來(lái)看,文本相似度的計(jì)算方法主要分為兩大類(lèi):一類(lèi)是基于統(tǒng)計(jì)學(xué)的計(jì)算方法,此種方法需要大規(guī)模的語(yǔ)料庫(kù),并且在計(jì)算時(shí)沒(méi)有考慮文本的句子結(jié)構(gòu)信息和語(yǔ)義信息,計(jì)算的結(jié)果有時(shí)會(huì)與人對(duì)自然語(yǔ)言的理解不相符合;另一類(lèi)是基于語(yǔ)義理解的計(jì)算方法,這種方法不需要大規(guī)模的語(yǔ)料庫(kù),但需要依賴(lài)于具有層次結(jié)構(gòu)關(guān)系的語(yǔ)義詞典,計(jì)算結(jié)果相對(duì)準(zhǔn)確,與人對(duì)自然語(yǔ)言的理解較為符合。下面介紹幾種經(jīng)典的文本相似度計(jì)算方法,并對(duì)他們各自的性能進(jìn)行簡(jiǎn)要的分析。

 

1、基于向量空間模型的計(jì)算方法

向量空間模型簡(jiǎn)稱(chēng)VSM,是VectorSpaceModel的縮寫(xiě),是近些年使用效果較好、且應(yīng)用較為廣泛的一種信息檢索模型。在此模型中,文本被看作是由一系列相互獨(dú)立的詞語(yǔ)組成的,若文檔D中包含詞語(yǔ)t1,t2,…,tN,則文檔表示為D(t1,t2,…,tN)。由于文檔中詞語(yǔ)對(duì)文檔的重要程度不同,并且詞語(yǔ)的重要程度對(duì)文本相似度的計(jì)算有很大的影響,因而可對(duì)文檔中的每個(gè)詞語(yǔ)賦以一個(gè)權(quán)值w,以表示該詞的權(quán)重,其表示如下:D(t1,w1;t2,w2;…,tN,wN),可簡(jiǎn)記為D(w1,w2,…,wN),此時(shí)的wk即為詞語(yǔ)tk的權(quán)重,1≤k≤N。這樣,就把文本表示成了向量的形式,同時(shí)兩文本的相似度問(wèn)題也就可以通過(guò)兩向量之間的夾角大小來(lái)計(jì)算了,夾角越大,兩文本的相似度就越低。

基于向量空間模型的計(jì)算方法假設(shè)文本中的詞語(yǔ)是相互獨(dú)立的,因而可以用向量的形式來(lái)表示,這種表示方法簡(jiǎn)化了文本中詞語(yǔ)之間的復(fù)雜關(guān)系,也使得文本的相似程度變得可以計(jì)算了。向量表示方法中詞語(yǔ)的權(quán)值應(yīng)該能夠顯示出該詞語(yǔ)對(duì)整個(gè)文本的重要程度,一般用經(jīng)過(guò)統(tǒng)計(jì)得到的詞頻來(lái)表示;向量的所有分量組合在一起,應(yīng)該能夠?qū)⒋宋谋九c其他文本區(qū)分開(kāi)。

大量統(tǒng)計(jì)結(jié)果表明,文本中出現(xiàn)次數(shù)最多的詞語(yǔ)往往是反映句子語(yǔ)法結(jié)構(gòu)的虛詞以及文本作者想要闡述某個(gè)問(wèn)題時(shí)所用的核心詞,如果是圍繞同一核心問(wèn)題的文本,其核心詞匯應(yīng)該是類(lèi)似的,所以這兩類(lèi)詞對(duì)文本相似度的計(jì)算都是沒(méi)有用的。因此,最高頻詞和低頻詞都不適宜做文本的特征詞,只有詞頻介于最高頻和低頻之間的這部分詞匯才適合做特征詞。

在文本中出現(xiàn)頻率較高的詞語(yǔ)應(yīng)該具有較高的權(quán)值,因此,在計(jì)算詞語(yǔ)對(duì)文本的權(quán)重時(shí),應(yīng)考慮詞語(yǔ)在文本中的出現(xiàn)頻率,記為tf。僅考慮這一項(xiàng)是不夠的,如果某一詞語(yǔ)不僅在一個(gè)文本中出現(xiàn),而是在文本集中的很多個(gè)文本中都有出現(xiàn),例如“的”字在中文文本中的出現(xiàn)頻率應(yīng)該是相當(dāng)高的,但它對(duì)于我們區(qū)分各個(gè)文本是沒(méi)有幫助的,也就是說(shuō),這樣的詞語(yǔ)是不具備鑒別能力的。因而,在計(jì)算詞語(yǔ)權(quán)重時(shí)還應(yīng)考慮詞語(yǔ)的文檔頻率(df),即含有該詞的文檔數(shù)量。由于詞語(yǔ)的權(quán)重與文檔頻率成反比,又引出與文檔頻率成反比關(guān)系的倒置文檔頻率(idf),其計(jì)算公式為idf=logN/n(其中N為文檔集中全部文檔的數(shù)量,n為包含某詞語(yǔ)的文檔數(shù))。由此得出特征詞t在文檔D中的權(quán)重weight(t,D)=tf(t,D)*idf(t)。用tf*idf公式計(jì)算特征項(xiàng)的權(quán)重,既注重了詞語(yǔ)在文本中的重要性,又注重了詞的鑒別能力。因此,有較高的tf*idf值的詞在文檔中一定是重要的,同時(shí)它一定在其它文檔中出現(xiàn)很少。因此我們可以通過(guò)這種方法來(lái)選擇把那些詞語(yǔ)作為文本向量的特征詞。

特征詞選擇出來(lái)之后,就能確定文本的向量表示了,有了文本向量,我們就可以通過(guò)此向量計(jì)算文本的相似度了。相似度的計(jì)算方法很多,其中包括:

內(nèi)積法(InnerProduct)

余弦法(Cosine)

Dice系數(shù)法(DiceCoefficient)

Jaccard系數(shù)法(JaccardCoefficient)

2、基于漢明距離的計(jì)算方法

上述方法是基于向量空間技術(shù)的,把文本表示成空間中的向量,通過(guò)計(jì)算向量之間的夾角來(lái)得出文本之間的相似程度。而基于漢明距離的文本相似度計(jì)算方法與上述方法不同,不是基于向量空間技術(shù),而是依賴(lài)于編碼理論中的漢明距離,通過(guò)計(jì)算兩文本之間的漢明距離來(lái)計(jì)算兩文本的相似度。此種方法的優(yōu)點(diǎn)在于運(yùn)算過(guò)程比較簡(jiǎn)便。

首先介紹一下什么是編碼理論中的漢明距離。漢明距離是描述兩個(gè)長(zhǎng)度為n的碼字之間的距離,例如計(jì)算碼字x=(x1x2…xi…xn)與y=(y1y2…yi…yn)之間的距離,其計(jì)算公式如下:

其中運(yùn)算符號(hào)⊕表示模2加運(yùn)算,xi和yi的取值為0或1。通過(guò)此公式計(jì)算得出的數(shù)據(jù)D(x,y)表示的是碼字x與y中不同符號(hào)的數(shù)目,也就反映出了碼字x與y之間的差異,D(x,y)值越大說(shuō)明兩個(gè)碼字相似程度越低。

利用此方法計(jì)算文本之間的相似度時(shí),首先提取出文本的一些相關(guān)信息,例如文中的關(guān)鍵字等,然后將其排列成字碼形式,文本的信息就通過(guò)這些字碼表現(xiàn)出來(lái),形成文本與字碼的一一對(duì)應(yīng)關(guān)系。例如,文本D就可以表示成D=(10100111001101011),其中的0和1表示的是其所在位置對(duì)應(yīng)的文本信息在文本中的狀態(tài),如果0表示文本D在其對(duì)應(yīng)位置上的信息是不存在的,那么1就表示文本D在其對(duì)應(yīng)位置上的信息是存在的;反過(guò)來(lái)表示也是可以的。根據(jù)上面的闡述我們就可以很容易的將文本表示成碼字的形式,想要求出兩個(gè)文本之間的相似度,就可以依據(jù)上面公式的計(jì)算結(jié)果得出。如果碼字的長(zhǎng)度為n,則通過(guò)上述公式計(jì)算出的兩碼字之間的距離值會(huì)介于0和n之間,當(dāng)計(jì)算結(jié)果為n時(shí),說(shuō)明兩文本的所有信息均不相同,反之,當(dāng)結(jié)果為0時(shí),說(shuō)明兩文本的所有信息都相同。這樣的推算方法顯然很不直觀,而且如果n值不同,文本相似度的大小也會(huì)很難比較。所以,我們首先要確定整個(gè)文本集的碼字集,然后將每個(gè)文本表示成其對(duì)應(yīng)的碼字,對(duì)于文本D1=(x1x2…xi…xn)和D2=(y1y2…yi…yn),定義其相似度計(jì)算公式為:

其中,xi和yi分別為文本D1和D2對(duì)應(yīng)的碼字中第i位的分量,其值0或1,⊕仍然是模2加運(yùn)算,此種運(yùn)算對(duì)計(jì)算機(jī)來(lái)說(shuō),十分方便快捷。運(yùn)用Sim(D1,D2)公式計(jì)算出來(lái)的文本相似度,其值介于0和1之間,當(dāng)結(jié)果0時(shí),說(shuō)明兩個(gè)文本完全不相似,當(dāng)結(jié)果為1時(shí),說(shuō)明兩個(gè)文本很相似,符合人們正常的認(rèn)知規(guī)律。

基于漢明距離的文本相似度計(jì)算方法沒(méi)有用到基于向量空間技術(shù)中使用的大量復(fù)雜的運(yùn)算,只是用到計(jì)算機(jī)運(yùn)算起來(lái)十分快捷的模2加等運(yùn)算,因而,計(jì)算速度比較快。另外,這種方法所用的文本信息不僅僅限于關(guān)鍵字等互相獨(dú)立的信息,提供了聯(lián)合的描述文本信息的可能。但是,如何選擇和排列文本信息,使其構(gòu)成與文本一一對(duì)應(yīng)的碼字集合,是運(yùn)用此方法進(jìn)行文本相似度計(jì)算過(guò)程中有待于進(jìn)一步研究的難點(diǎn)問(wèn)題。

3、基于語(yǔ)義理解的計(jì)算方法

基于語(yǔ)義理解的文本相似度計(jì)算方法與基于統(tǒng)計(jì)學(xué)的計(jì)算方法不同,此方法不需要大規(guī)模的語(yǔ)料庫(kù),也不需要長(zhǎng)時(shí)間和大量的訓(xùn)練,一般需要一個(gè)具有層次結(jié)構(gòu)關(guān)系的語(yǔ)義詞典,依據(jù)概念之間的上下位關(guān)系或同義關(guān)系進(jìn)行計(jì)算。文本的相似性計(jì)算大多是依賴(lài)于組成此文本的詞語(yǔ),基于語(yǔ)義理解的相似度計(jì)算方法也不例外,一般都是通過(guò)計(jì)算語(yǔ)義結(jié)構(gòu)樹(shù)中兩詞語(yǔ)之間的距離來(lái)計(jì)算詞語(yǔ)的相似度。因此,一般會(huì)用到一些具有層次結(jié)構(gòu)關(guān)系的語(yǔ)義詞典,如WordNet、HowNet、同義詞詞林等。基于語(yǔ)義詞典的文本相似度計(jì)算方法很多,有的通過(guò)計(jì)算詞語(yǔ)在WordNet中由上下位關(guān)系所構(gòu)成的最短路徑來(lái)計(jì)算詞語(yǔ)的相似度;也有的根據(jù)兩詞語(yǔ)在詞典中的公共祖先結(jié)點(diǎn)所具有的最大信息量來(lái)計(jì)算詞語(yǔ)的相關(guān)度;國(guó)內(nèi)也有通過(guò)知網(wǎng)或同義詞詞林來(lái)計(jì)算詞語(yǔ)的語(yǔ)義相似度的方法。

標(biāo)簽:

點(diǎn)贊

分享到:

上一篇:英威騰MH500電液伺服故障速查...

下一篇:振動(dòng)傳感器選擇指南,如何選...

中國(guó)傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.hysjfh.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

網(wǎng)站簡(jiǎn)介|會(huì)員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見(jiàn)反饋|sitemap

傳動(dòng)網(wǎng)-工業(yè)自動(dòng)化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺(tái)

網(wǎng)站客服服務(wù)咨詢(xún)采購(gòu)咨詢(xún)媒體合作

Chuandong.com Copyright ?2005 - 2025 ,All Rights Reserved 深圳市奧美大唐廣告有限公司 版權(quán)所有
粵ICP備 14004826號(hào) | 營(yíng)業(yè)執(zhí)照證書(shū) | 不良信息舉報(bào)中心 | 粵公網(wǎng)安備 44030402000946號(hào)

主站蜘蛛池模板: 五河县| 白河县| 大洼县| 舟山市| 宣城市| 蓝田县| 新疆| 盐池县| 牡丹江市| 冷水江市| 东阳市| 北流市| 武定县| 长泰县| 辽阳县| 泽库县| 诏安县| 肇州县| 麦盖提县| 扬中市| 星子县| 循化| 万全县| 唐河县| 文水县| 天等县| 民乐县| 肥东县| 南木林县| 剑阁县| 扬中市| 霍州市| 山阴县| 和平县| 江西省| 独山县| 秀山| 临沧市| 麦盖提县| 襄垣县| 澄迈县|