前言: Google 一直以 “整合全球信息,讓人人能獲取,使人人能受益” 為使命。那么究竟每一條信息應(yīng)該怎樣度量呢?
信息是個(gè)很抽象的概念。我們常常說(shuō)信息很多,或者信息較少,但卻很難說(shuō)清楚信息到底有多少。比如一本五十萬(wàn)字的中文書(shū)到底有多少信息量。直到 1948 年, 香農(nóng) 提出了“ 信息熵 ”(shāng) 的概念,才解決了對(duì)信息的量化度量問(wèn)題。
一條信息的信息量大小和它的不確定性有直接的關(guān)系。比如說(shuō),我們要搞清楚一件非常非常不確定的事,或是我們一無(wú)所知的事情,就需要了解大量的信息。相反,如果我們對(duì)某件事已經(jīng)有了較多的了解,我們不需要太多的信息就能把它搞清楚。所以,從這個(gè)角度,我們可以認(rèn)為,信息量的度量就等于不確定性的多少。
那么我們?nèi)绾瘟炕亩攘啃畔⒘磕兀课覀儊?lái)看一個(gè)例子,馬上要舉行世界杯賽了。大家都很關(guān)心誰(shuí)會(huì)是冠軍。假如我錯(cuò)過(guò)了看世界杯,賽后我問(wèn)一個(gè)知道比賽結(jié)果的觀眾“哪支球隊(duì)是冠軍”? 他不愿意直接告訴我, 而要讓我猜,并且我每猜一次,他要收一元錢(qián)才肯告訴我是否猜對(duì)了,那么我需要付給他多少錢(qián)才能知道誰(shuí)是冠軍呢? 我可以把球隊(duì)編上號(hào),從 1 到 32, 然后提問(wèn): “冠軍的球隊(duì)在 1-16 號(hào)中嗎?” 假如他告訴我猜對(duì)了, 我會(huì)接著問(wèn): “冠軍在 1-8 號(hào)中嗎?” 假如他告訴我猜錯(cuò)了, 我自然知道冠軍隊(duì)在 9-16 中。 這樣只需要五次, 我就能知道哪支球隊(duì)是冠軍。所以,誰(shuí)是世界杯冠軍這條消息的信息量只值五塊錢(qián)。
當(dāng)然,香農(nóng)不是用錢(qián),而是用 “比特”(bit)這個(gè)概念來(lái)度量信息量。 一個(gè)比特是一位二進(jìn)制數(shù),計(jì)算機(jī)中的一個(gè)字節(jié)是八個(gè)比特。在上面的例子中,這條消息的信息量是五比特。(如果有朝一日有六十四個(gè)隊(duì)進(jìn)入決賽階段的比賽,那么“誰(shuí)世界杯冠軍”的信息量就是六比特,因?yàn)槲覀円嗖乱淮巍#?讀者可能已經(jīng)發(fā)現(xiàn), 信息量的比特?cái)?shù)和所有可能情況的對(duì)數(shù)函數(shù) log 有關(guān)。 (log32=5, log64=6。)
有些讀者此時(shí)可能會(huì)發(fā)現(xiàn)我們實(shí)際上可能不需要猜五次就能猜出誰(shuí)是冠軍,因?yàn)橄蟀臀鳌⒌聡?guó)、意大利這樣的球隊(duì)得冠軍的可能性比日本、美國(guó)、韓國(guó)等隊(duì)大的多。因此,我們第一次猜測(cè)時(shí)不需要把 32 個(gè)球隊(duì)等分成兩個(gè)組,而可以把少數(shù)幾個(gè)最可能的球隊(duì)分成一組,把其它隊(duì)分成另一組。然后我們猜冠軍球隊(duì)是否在那幾只熱門(mén)隊(duì)中。我們重復(fù)這樣的過(guò)程,根據(jù)奪冠概率對(duì)剩下的候選球隊(duì)分組,直到找到冠軍隊(duì)。這樣,我們也許三次或四次就猜出結(jié)果。因此,當(dāng)每個(gè)球隊(duì)奪冠的可能性(概率)不等時(shí),“誰(shuí)世界杯冠軍”的信息量的信息量比五比特少。香農(nóng)指出,它的準(zhǔn)確信息量應(yīng)該是
= -(p1*log p1 + p2 * log p2 + ... +p32 *log p32),
其中,p1,p2 , ...,p32 分別是這 32 個(gè)球隊(duì)奪冠的概率。香農(nóng)把它稱為“信息熵” (Entropy),一般用符號(hào) H 表示,單位是比特。有興趣的讀者可以推算一下當(dāng) 32 個(gè)球隊(duì)奪冠概率相同時(shí),對(duì)應(yīng)的信息熵等于五比特。有數(shù)學(xué)基礎(chǔ)的讀者還可以證明上面公式的值不可能大于五。對(duì)于任意一個(gè)隨機(jī)變量 X(比如得冠軍的球隊(duì)),它的熵定義如下:
變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
有了“熵”這個(gè)概念,我們就可以回答本文開(kāi)始提出的問(wèn)題,即一本五十萬(wàn)字的中文書(shū)平均有多少信息量。我們知道常用的漢字(一級(jí)二級(jí)國(guó)標(biāo))大約有 7000 字。假如每個(gè)字等概率,那么我們大約需要 13 個(gè)比特(即 13 位二進(jìn)制數(shù))表示一個(gè)漢字。但漢字的使用是不平衡的。實(shí)際上,前 10% 的漢字占文本的 95% 以上。因此,即使不考慮上下文的相關(guān)性,而只考慮每個(gè)漢字的獨(dú)立的概率,那么,每個(gè)漢字的信息熵大約也只有 8-9 個(gè)比特。如果我們?cè)倏紤]上下文相關(guān)性,每個(gè)漢字的信息熵只有5比特左右。所以,一本五十萬(wàn)字的中文書(shū),信息量大約是 250 萬(wàn)比特。如果用一個(gè)好的算法壓縮一下,整本書(shū)可以存成一個(gè) 320KB 的文件。如果我們直接用兩字節(jié)的國(guó)標(biāo)編碼存儲(chǔ)這本書(shū),大約需要 1MB 大小,是壓縮文件的三倍。這兩個(gè)數(shù)量的差距,在信息論中稱作“冗余度”(redundancy)。 需要指出的是我們這里講的 250 萬(wàn)比特是個(gè)平均數(shù),同樣長(zhǎng)度的書(shū),所含的信息量可以差很多。如果一本書(shū)重復(fù)的內(nèi)容很多,它的信息量就小,冗余度就大。
不同語(yǔ)言的冗余度差別很大,而漢語(yǔ)在所有語(yǔ)言中冗余度是相對(duì)小的。這和人們普遍的認(rèn)識(shí)“漢語(yǔ)是最簡(jiǎn)潔的語(yǔ)言”是一致的。
在下一集中, 我們將介紹信息熵在信息處理中的應(yīng)用以及兩個(gè)相關(guān)的概念互信息和相對(duì)熵。
對(duì)中文信息熵有興趣的讀者可以讀我和王作英教授在電子學(xué)報(bào)上合寫(xiě)的一篇文章
《語(yǔ)信息熵和語(yǔ)言模型的復(fù)雜度》
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
