_<)~~今天我來弄一個(gè)簡單的關(guān)鍵詞提取的代碼文章內(nèi)容關(guān)鍵詞的提取分為三大步:(1)分詞(2)去停用詞(3)關(guān)鍵詞提取分詞方法有很多,我這里就選擇常用的結(jié)巴jieba分詞;去停用詞,我用了一個(gè)停用詞表。具體代碼如下:importjiebaimportjieba.analyse#第一步:分詞,這里使用結(jié)巴分詞全模式text='''新聞,也叫消息,是指報(bào)紙、電臺、電視臺、互聯(lián)網(wǎng)經(jīng)常使用的記錄社會、傳播信息、反映" />

日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

python實(shí)現(xiàn)關(guān)鍵詞提取的示例講解

系統(tǒng) 1758 0

新人小菜鳥又來寫博客啦!!!沒人表示不開心~~(>_<)~~

今天我來弄一個(gè)簡單的關(guān)鍵詞提取的代碼

文章內(nèi)容關(guān)鍵詞的提取分為三大步:

(1) 分詞

(2) 去停用詞

(3) 關(guān)鍵詞提取

分詞方法有很多,我這里就選擇常用的結(jié)巴jieba分詞;去停用詞,我用了一個(gè)停用詞表。

具體代碼如下:

            
import jieba
import jieba.analyse
#第一步:分詞,這里使用結(jié)巴分詞全模式
text = '''新聞,也叫消息,是指報(bào)紙、電臺、電視臺、互聯(lián)網(wǎng)經(jīng)常使用的記錄社會、傳播信息、反映時(shí)代的一種文體,具有真實(shí)性、時(shí)效性、簡潔性、可讀性、準(zhǔn)確性的特點(diǎn)。新聞概念有廣義與狹義之分。就其廣義而言,除了發(fā)表于報(bào)刊、廣播、電視上的評論與專文外的常用文本都屬于新聞之列,包括消息、通訊、特寫、速寫(有的將速寫納入特寫之列)等等。狹義的新聞則專指消息,消息是用概括的敘述方式,比較簡明扼要的文字,迅速及時(shí)地報(bào)道國內(nèi)外新近發(fā)生的、有價(jià)值的的事實(shí)。新聞也分公眾新聞和小道新聞等。每則新聞在結(jié)構(gòu)上,一般包括標(biāo)題、導(dǎo)語、主體、背景和結(jié)語五部分。前三者是主要部分,后二者是輔助部分。寫法上主要是敘述,有時(shí)兼有議論、描寫、評論等。
'''
fenci_text = jieba.cut(text)
#print("/ ".join(fenci_text))
#第二步:去停用詞
#這里是有一個(gè)文件存放要改的文章,一個(gè)文件存放停用表,然后和停用表里的詞比較,一樣的就刪掉,最后把結(jié)果存放在一個(gè)文件中
stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ])
final = ""
for word in fenci_text:
  if word not in stopwords:
    if (word != "。" and word != ",") :
      final = final + " " + word
print(final)
#第三步:提取關(guān)鍵詞
a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ())
print(a)
#text 為待提取的文本
# topK:返回幾個(gè) TF/IDF 權(quán)重最大的關(guān)鍵詞,默認(rèn)值為20。
# withWeight:是否一并返回關(guān)鍵詞權(quán)重值,默認(rèn)值為False。
# allowPOS:僅包括指定詞性的詞,默認(rèn)值為空,即不進(jìn)行篩選。
          

運(yùn)行結(jié)果:

            
runfile('D:/Data/文本挖掘/xiaojieba.py', wdir='D:/Data/文本挖掘')
 新聞 消息 指 報(bào)紙 、 電臺 、 電視臺 、 互聯(lián)網(wǎng) 記錄 社會 、 傳播 信息 、 時(shí)代 一種 文體 真實(shí)性 、 時(shí)效性 、 簡潔性 、 可讀性 、 準(zhǔn)確性 新聞 概念 廣義 狹義 之分 廣義 發(fā)表 報(bào)刊 、 廣播 、 電視 評論 專文 外 常用 文本 新聞 列 包括 消息 、 通訊 、 特寫 、 速寫 ( 速寫 納入 特寫 列 ) 狹義 新聞 專指 消息 消息 概括 敘述 方式 簡明扼要 文字 報(bào)道 國內(nèi)外 新近 發(fā)生 、 價(jià)值 事實(shí) 新聞 分 公眾 新聞 小道 新聞 每則 新聞 在結(jié)構(gòu)上 包括 標(biāo)題 、 導(dǎo)語 、 主體 、 背景 結(jié)語 五 前 三者 二者 輔助 寫法 敘述 兼有 議論 、 描寫 、 評論 
[('新聞', 0.4804811569680808), ('速寫', 0.2121107125313131), ('消息', 0.20363211136040404), ('特寫', 0.20023623445272729), ('狹義', 0.16168734917858588)]

          

好啦,是不是很簡單?

以上這篇python實(shí)現(xiàn)關(guān)鍵詞提取的示例講解就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 宁强县| 湘潭县| 奎屯市| 万安县| 房山区| 迭部县| 同德县| 喜德县| 通州市| 财经| 敖汉旗| 赤峰市| 青河县| 富裕县| 嵊泗县| 固阳县| 巴马| 诸城市| 平陆县| 固安县| 军事| 青州市| 杨浦区| 涪陵区| 仪陇县| 久治县| 尼勒克县| 宁晋县| 元谋县| 岑巩县| 巫溪县| 柘城县| 邹平县| 中山市| 东丰县| 濮阳市| 永康市| 韶山市| 怀仁县| 西昌市| 柳河县|