日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

【文本分類】文本表示 --- VSM

系統 1771 0

要使得計算機能高效的處理真實文本,就必須找到一種理想的形式化表示方法,這種表示一方面能真實的反映文檔內容(主題、領域或結構等),另一方面也要有對不同文檔的區分能力。

?

目前文本表示通常采用 向量空間模型(vector space model, VSM) 。VSM是20世紀60年代末期由G. Salton等人提出的,是當前自然語言處理中常用的主流模型。

?

下面首先給出VSM設計的基本概念:

(1) 文檔(document): 通常是文章中具有一定規模的字符串。文檔通常我們也叫文本。

(2) 特征項 (feature term): 是VSM中最小的不可分的語言單元,可以是字、詞、詞組、短語等。一個文檔內容可以被看成是它含有的特征項的集合。表示為一個向量:D(t1,t2,...,tn),其中tk是特征項。

(3) 特征項權重 (term weight): 對于含有n個特征項的文檔D(t1,t2,..,tn),每一個特征項tk都依據一定的原則被賦予了一個權重wk,表示該特征相在文檔中的重要程度。這樣一個文檔D可用它含有的特征項及其特征項所對應的權重所表示: D(t1=w1,t2=w2,...,tn=wn),簡記為D(w1,w2,...,wn),其中wk就是特征項tk的權重。

?

一個文檔在上述約定下可以看成是n維空間中的一個向量,這就是VSM的基本理論基礎。

?

向量空間模型在計算文檔間相似程度上應用廣泛。我們可以通過向量的內積運算來做到這一點:

?

VSM模型為計算機處理文本分類打下了夯實的數學基礎,但是一篇文本到底用哪些特征項來表示呢?比如在《 【文本分類】 概述 》文章中舉的那篇NBA文本的例子,我們可以用所有標藍的詞語作為特征項來表示文本向量:

?

?????????? D = { 勒布朗-詹姆斯 , 德維恩-韋德 , 里斯-波什 新賽季 邁阿密熱火 , 總冠軍 , 熱火 , 球隊 , 衛冕冠軍,湖人 凱爾特人 休賽期 , 聯盟 }

?

?而且這些特征項在文章中的權重是如何計算的呢? 關于這幾個問題,我們都將在后面的特征提取方法和特征權重計算方法中講到。

?

因為統計學習方法的理論基礎(即文檔的內容與其中所包含的詞有著必然的聯系,同一類文檔之間總存在多個共同的詞,而不同類的文檔所包含的詞之間差異很大。進一步的,不光是包含哪些詞很重要,這些詞出現的次數對分類也很重要)。使得

VSM成了適合文本分類問題的文檔表示模型。在這種模型中,一篇文章被看作特征項集合來看,利用加權特征項構成向量進行文本表示,利用詞頻信息對文本特征進行加權。它實現起來比較簡單,并且分類準確度也高,能夠滿足一般應用的要求。


而實際上,文本是一種信息載體,其所攜帶的信息由幾部分組成:如組成元素本身的信息(詞的信息)、組成元素之間順序關系帶來的信息以及上下文信息(更嚴格的說,還包括閱讀者本身的背景和理解)而VSM這種文檔表示模型,基本上完全忽略了除詞的信息以外所有的部分,這使得它能表達的信息量存在上限,也直接導致了基于這種模型構建的文本分類系統(雖然這是目前絕對主流的做法),幾乎永遠也不可能達到人類的分類能力。后面我們也會談到,相比于所謂的分類算法,對特征的選擇,也就是使用哪些特征來代表一篇文檔,往往更能影響分類的效果。


對于擴充文檔表示模型所包含的信息量,人們也做過有益的嘗試,例如被稱為LSI(Latent Semantic Index潛在語義索引)的方法,就被實驗證明保留了一定的語義信息(之所以說被實驗證明了,是因為人們還無法在形式上嚴格地證明它確實保留了語義信息,而且這種語義信息并非以人可以理解的方式被保留下來),此為后話。

實際上:統計學習方法其實就是一個兩階段的解決方案, (1)訓練階段,由計算機來總結分類的規則;(2)分類階段,給計算機一些它從來沒見過的文檔,讓它分類

【文本分類】文本表示 --- VSM


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 兴安县| 抚顺县| 乐亭县| 淮阳县| 隆化县| 丘北县| 瑞丽市| 马公市| 洛隆县| 石泉县| 舞钢市| 许昌县| 麻城市| 广平县| 资源县| 鄂尔多斯市| 合江县| 宁国市| 中山市| 峨山| 铁力市| 福贡县| 青海省| 德令哈市| 古丈县| 正安县| 沙田区| 嘉黎县| 衡水市| 宽城| 洪雅县| 修文县| 博客| 革吉县| 加查县| 天等县| 庆安县| 台中市| 团风县| 娱乐| 叙永县|