日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

詳解Python 字符串相似性的幾種度量方法

系統 1846 0

字符串的相似性比較應用場合很多,像拼寫糾錯、文本去重、上下文相似性等。

評價字符串相似度最常見的辦法就是:把一個字符串通過插入、刪除或替換這樣的編輯操作,變成另外一個字符串,所需要的最少編輯次數,這種就是編輯距離(edit distance)度量方法,也稱為Levenshtein距離。海明距離是編輯距離的一種特殊情況,只計算等長情況下替換操作的編輯次數,只能應用于兩個等長字符串間的距離度量。

其他常用的度量方法還有 Jaccard distance、J-W距離(Jaro?CWinkler distance)、余弦相似性(cosine similarity)、歐氏距離(Euclidean distance)等。

python-Levenshtein 使用

使用 pip install python-Levenshtein 指令安裝 Levenshtein

            
# -*- coding: utf-8 -*-
 
import difflib
# import jieba
import Levenshtein
 
str1 = "我的骨骼雪白 也長不出青稞"
str2 = "雪的日子 我只想到雪中去si"
 
# 1. difflib
seq = difflib.SequenceMatcher(None, str1,str2)
ratio = seq.ratio()
print 'difflib similarity1: ', ratio
 
# difflib 去掉列表中不需要比較的字符
seq = difflib.SequenceMatcher(lambda x: x in ' 我的雪', str1,str2)
ratio = seq.ratio()
print 'difflib similarity2: ', ratio
 
# 2. hamming距離,str1和str2長度必須一致,描述兩個等長字串之間對應位置上不同字符的個數
# sim = Levenshtein.hamming(str1, str2)
# print 'hamming similarity: ', sim
 
# 3. 編輯距離,描述由一個字串轉化成另一個字串最少的操作次數,在其中的操作包括 插入、刪除、替換
sim = Levenshtein.distance(str1, str2)
print 'Levenshtein similarity: ', sim
 
# 4.計算萊文斯坦比
sim = Levenshtein.ratio(str1, str2)
print 'Levenshtein.ratio similarity: ', sim
 
# 5.計算jaro距離
sim = Levenshtein.jaro(str1, str2 )
print 'Levenshtein.jaro similarity: ', sim
 
# 6. Jaro?CWinkler距離
sim = Levenshtein.jaro_winkler(str1 , str2 )
print 'Levenshtein.jaro_winkler similarity: ', sim

          

輸出:

difflib similarity1:? 0.246575342466
difflib similarity2:? 0.0821917808219
Levenshtein similarity:? 33
Levenshtein.ratio similarity:? 0.27397260274
Levenshtein.jaro similarity:? 0.490208958959
Levenshtein.jaro_winkler similarity:? 0.490208958959

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 永善县| 浦北县| 海口市| 饶平县| 新巴尔虎左旗| 宜川县| 秦安县| 丰都县| 富锦市| 东港市| 班戈县| 慈利县| 周至县| 道孚县| 平顺县| 宁国市| 洪雅县| 富蕴县| 凤台县| 舞阳县| 叙永县| 德江县| 昭通市| 黄冈市| 曲沃县| 临猗县| 大兴区| 湾仔区| 布尔津县| 天峻县| 金阳县| 灌南县| 南开区| 田东县| 林口县| 马关县| 当涂县| 乐昌市| 沽源县| 襄城县| 吴旗县|