熟女人妻水多爽中文字幕,国产精品鲁鲁鲁,隔壁的少妇2做爰韩国电影,亚洲最大中文字幕无码网站

技術頻道

娓娓工業
您現在的位置: 中國傳動網 > 技術頻道 > 技術百科 > 人工智能系統如何識別重復數據?

人工智能系統如何識別重復數據?

時間:2021-05-17 14:38:22來源:中國傳動網

導語:?對人工智能概念的討論,例如比較數據庫中的記錄,以及如何將這些技術與Salesforce結合使用。在本文中,我們將更仔細地研究數據科學家用來訓練機器學習系統以識別重復項的一些方法。

人工智能概念的討論,例如比較數據庫中的記錄,以及如何將這些技術與Salesforce結合使用。

當您同時比較兩個Salesforce記錄或任何其他CRM記錄時,您可以很容易地確定它們是否重復。然而,即使你有少量的記錄,比如說不到10萬條,也幾乎不可能一個一個地篩選它們,并進行這樣的比較。這就是為什么公司已經開發了各種工具來自動化這些過程,但是,為了做好工作,機器需要能夠識別記錄之間的所有相似性和差異性。在本文中,我們將更仔細地研究數據科學家用來訓練機器學習系統以識別重復項的一些方法。

 人工智能

機器學習系統如何比較和對比記錄?

研究人員使用的主要工具之一是字符串度量。當您獲取兩個數據字符串并返回一個值時,如果字符串相似,則返回低值;如果字符串不同,則返回高值。這在實踐中是如何起作用的?

如果一個人看到這兩個記錄,很明顯這是重復的。然而,機器依靠字符串度量來復制人類的思維過程,這就是人工智能的全部內容。最著名的字符串度量之一是漢明距離,它度量將一個字符串轉換為另一個字符串所需的替換次數。例如,如果我們返回到上面的兩個記錄,只需要進行一次替換就可以將burgendy”變成“burgendy”,因此Hamming距離為1

還有許多其他的字符串度量標準來度量兩個字符串之間的相似性,而分隔每個字符串的是它們所允許的操作。例如,我們提到了漢明距離,但是這個字符串度量只允許替換,這意味著它只能應用于長度相等的字符串。類似Levenshtein距離的東西允許刪除、插入和替換。

如何將所有這些用于重復數據消除Salesforce

人工智能系統有幾種方法可以實現Salesforce重復數據消除。方法之一是阻塞方法,如下所示:

這種阻塞方法使這種方法具有可擴展性。它的工作方式是,每當你上傳新的記錄到你的Salesforce中,系統會自動將看起來“相似”的記錄屏蔽在一起,這可以是名字的前三個字母或任何其他條件。

這是非常有益的,因為它減少了需要進行比較的次數。例如,假設Salesforce中有100000條記錄,并且您希望上載一個包含50000條記錄的Excel電子表格。傳統的基于規則的重復數據消除應用程序需要將每個新記錄與現有記錄進行比較,這意味著需要進行5000000000次比較(100000 x 50000)。想象一下這需要多長時間,它會增加多少出錯的概率。此外,我們需要記住,100000條記錄只是Salesforce記錄中相當有限的一部分。有很多組織擁有數十萬甚至數百萬的記錄。因此,在嘗試適應此類模型時,傳統方法的可擴展性很差。

另一種選擇是單獨比較每個字段:

Acme公司

一旦系統將“相似”的記錄組合在一起,它將繼續逐字段分析每個記錄。這就是我們前面討論的所有字符串度量將發揮作用的地方。除此之外,系統將為每個字段指定一個特定的“權重”或重要性。例如,假設對于您的數據集,“Email”字段是最重要的。您可以自己調整算法,或者當您將記錄標記為重復(或不重復)時,系統將自動學習正確的權重。這被稱為主動學習,更可取的是,因為系統可以精確計算一個領域對另一個領域的重要性。

機器學習方法的優點是什么?

機器學習能提供的最大好處是它能為你做所有的工作。我們在上一節中描述的主動學習方面將自動對每個字段應用所有必要的權重。這意味著不需要創建復雜的設置過程或規則。讓我們看看下面的場景。假設其中一個銷售代表發現了一個重復的問題,并將此問題通知Salesforce管理員。然后Salesforce管理員將繼續創建一個規則,以防止將來發生此類重復。每次發現一個新的復制品使這樣一個過程變得不可持續時,就必須一遍又一遍地重復這個過程。

另外,我們需要記住,Salesforce中基于重復數據消除的功能也是基于規則的,只是非常有限。例如,一次只能合并三條記錄,不支持自定義對象,還有許多其他限制。機器學習只是一種更聰明的方法,因為規則的創建是簡單的自動化,而人工智能和機器學習則試圖重現人類的思維過程。本文討論了機器學習和自動化的區別。選擇一個簡單地擴展Salesforce功能而不是修復整個過程的重復數據消除產品是沒有意義的。這就是為什么機器學習方法是最好的方法。

標簽: 人工智能

點贊

分享到:

上一篇:邊緣計算和物聯網之間的共生關系

下一篇:嵌入式操作系統的八大優點

中國傳動網版權與免責聲明:凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

網站簡介|會員服務|聯系方式|幫助信息|版權信息|網站地圖|友情鏈接|法律支持|意見反饋|sitemap

傳動網-工業自動化與智能制造的全媒體“互聯網+”創新服務平臺

網站客服服務咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2025 ,All Rights Reserved 深圳市奧美大唐廣告有限公司 版權所有
粵ICP備 14004826號 | 營業執照證書 | 不良信息舉報中心 | 粵公網安備 44030402000946號

主站蜘蛛池模板: 潞西市| 新建县| 徐汇区| 西畴县| 文成县| 汾西县| 江城| 镇平县| 齐河县| 金昌市| 鞍山市| 辽宁省| 黎平县| 罗平县| 西昌市| 新邵县| 九江县| 新沂市| 和政县| 咸阳市| 定南县| 张家港市| 来宾市| 北安市| 福建省| 星座| 兴安盟| 永新县| 浙江省| 新昌县| 旅游| 汽车| 临潭县| 东明县| 喀喇沁旗| 周至县| 南京市| 长垣县| 扶风县| 铁岭市| 博爱县|