中文編碼問題一直是Python程序設(shè)計(jì)中很頭痛的問題,本文對(duì)此較為詳細(xì)的進(jìn)行了總結(jié)歸納。具體如下:
?
當(dāng)字符串是:'\u4e2d\u56fd'?
>>>s=['\u4e2d\u56fd','\u6e05\u534e\u5927\u5b66'] >>>str=s[0].decode('unicode_escape') #.encode("EUC_KR") >>>print str 中國(guó)
當(dāng)字符串是:' 東亞學(xué)團(tuán)一中'
>>>print unichr(19996) 東
ord()支持unicode,可以顯示特定字符的unicode號(hào)碼,如:
>>>print ord('A') 65
只要和Unicode連接,就會(huì)產(chǎn)生Unicode字串。如:
>>> 'help' 'help' >>> 'help,' + u'python' u'help,python'
對(duì)于ASCII(7位)兼容的字串,可和內(nèi)置的str()函數(shù)把Unicode字串轉(zhuǎn)換成ASCII字串。如:
>>> str(u'hello world') 'hello world'
對(duì)幾個(gè)概念的理解:
ASCII碼 用數(shù)據(jù)字 對(duì)應(yīng) 相應(yīng)的字符 如下圖所示:
而中文 就是區(qū)位碼對(duì)應(yīng)漢字。如:“好” 的ASCII碼為: 22909
?
unicode 編碼 每個(gè)國(guó)家分一塊。它有UTF-8、UTF-16、UTF-32等形式
中文范圍 4E00-9FBF:這個(gè)范圍內(nèi)有 gbk,gb2312,
?
utf-8是基于unicode的 國(guó)際化的場(chǎng)合適合使用
gb2312和gb2312都是國(guó)標(biāo)碼 出現(xiàn)的較早 主要用于編解碼常用漢字
希望本文所述對(duì)大家的Python程序設(shè)計(jì)有所幫助。
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
