日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

Python實現(xiàn)把utf-8格式的文件轉(zhuǎn)換成gbk格式的文件

系統(tǒng) 2190 0

需求:將utf-8格式的文件轉(zhuǎn)換成gbk格式的文件

實現(xiàn)代碼如下:

復(fù)制代碼 代碼如下:

def ReadFile(filePath,encoding="utf-8"):
??? with codecs.open(filePath,"r",encoding) as f:
??????? return f.read()
?
def WriteFile(filePath,u,encoding="gbk"):
??? with codecs.open(filePath,"w",encoding) as f:
??????? f.write(u)
?
def UTF8_2_GBK(src,dst):
??? content = ReadFile(src,encoding="utf-8")
??? WriteFile(dst,content,encoding="gbk")

代碼講解:

函數(shù)ReadFile的第二個參數(shù)指定以utf-8格式的編碼方式讀取文件,返回的結(jié)果content為Unicode然后,在將Unicode以gbk格式寫入文件中。

這樣就能實現(xiàn)需求。
但是,如果要轉(zhuǎn)換格式的文件中包含有一些字符并不包含在gbk字符集中的話,就會報錯,類似如下:

復(fù)制代碼 代碼如下:

UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 4813: illegal multibyte sequence

以上的報錯信息的意思是:在將Unicode編碼成gbk的時候,不能將Unicode u'\xa0'編碼成gbk。

這里,我們需要弄清楚gb2312、gbk和gb18030三者之間的關(guān)系

復(fù)制代碼 代碼如下:

GB2312:6763個漢字
GBK:21003個漢字
GB18030-2000:27533個漢字
GB18030-2005:70244個漢字

所以,GBK是GB2312的超集,GB18030是GBK的超集。
理清了關(guān)系之后,我們進一步改進下代碼:
復(fù)制代碼 代碼如下:

def UTF8_2_GBK(src,dst):
??? content = ReadFile(src,encoding="utf-8")
??? WriteFile(dst,content,encoding="gb18030")

運行后,發(fā)現(xiàn)沒有報錯,可以正常運行。

因為,在GB18030字符集中,可以找到u'\xa0'對應(yīng)的字符。
?此外,還有另外一種實現(xiàn)方案:
需要修改下WriteFile方法

復(fù)制代碼 代碼如下:

def WriteFile(filePath,u,encoding="gbk"):
??? with codecs.open(filePath,"w") as f:
??????? f.write(u.encode(encoding,errors="ignore"))

這里,我們將Unicode編碼(encode)成gbk格式,但是注意encode函數(shù)的第二個參數(shù),我們賦值"ignore",表示在編碼的時候,忽略掉那些無法編碼的字符,解碼同理。

但是,當(dāng)我們執(zhí)行后,發(fā)現(xiàn)可以成功的將utf-8格式的文件修改成了ansi格式。但,另外發(fā)現(xiàn)生成的文件中,每個一行都有一行空行。

這里,可以指定以二進制流的形式寫文件,修改后的代碼如下:

復(fù)制代碼 代碼如下:

def WriteFile(filePath,u,encoding="gbk"):
??? with codecs.open(filePath,"wb") as f:
??????? f.write(u.encode(encoding,errors="ignore"))


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 扎囊县| 常熟市| 靖西县| 雷山县| 章丘市| 舞阳县| 旌德县| 青州市| 逊克县| 长岭县| 宾川县| 荔浦县| 灵丘县| 江孜县| 航空| 荥阳市| 宣武区| 南溪县| 张家川| 田东县| 水城县| 建水县| 崇礼县| 巴林左旗| 越西县| 剑川县| 凤翔县| 澜沧| 金秀| 南郑县| 合川市| 罗田县| 青田县| 中牟县| 藁城市| 灵台县| 洛阳市| 栾城县| 东阳市| 彰武县| 图木舒克市|