本文所用環(huán)境:
Python 3.6.5 |Anaconda custom (64-bit)|
引言
由于某些原因,需要用python讀取二進(jìn)制文件,這里主要用到struct包,而這個(gè)包里面的方法主要是unpack、pack、calcsize。詳細(xì)介紹可以看:Python Struct 官方文檔。這里主要討論,python二進(jìn)制轉(zhuǎn)浮點(diǎn)數(shù)的操作。
python中一個(gè)float類型的數(shù)占4個(gè)字節(jié)。
二進(jìn)制數(shù)據(jù)轉(zhuǎn)float,可以用struct.unpack()來實(shí)現(xiàn)。
小文件讀取
較小的文件,可以一次讀?。?
首先導(dǎo)入所需的包:
import numpy as np import struct Python
例如:我需要讀取一個(gè)名為filename,存放著形狀為[100,1025]的浮點(diǎn)數(shù)的文件??梢圆捎靡韵罗k法
# 加載測(cè)試數(shù)據(jù) f = open('filename','rb') # 102500為文檔中包含的數(shù)字個(gè)數(shù),而一個(gè)浮點(diǎn)數(shù)占4個(gè)字節(jié) data_raw = struct.unpack('f'*102500,f.read(4*102500)) f.close() verify_data = np.asarray(verify_data_raw).reshape(-1,1025)
大文件處理方法
我需要處理的文件大小有38.1G,存放著[10000000,1025]大小的向量。
關(guān)于大文件的處理,我參考了這文章,但是,這個(gè)方法不能很好的將二進(jìn)制文件轉(zhuǎn)換成浮點(diǎn)數(shù)。
所以我想到了另外一種辦法:
通過Linux命令切割文件
通過split命令將38.1G的文件按照指定大小切割,
split -b 820000k -a 2 filename data_
上述代碼的意思是,指定每塊大小為820000k,-a 2代表2位數(shù)命名,‘data_'代表前綴是'data_'
最終生成49個(gè)文件(字典序 aa ?C bw),前48個(gè)文件每個(gè)204800行 最后一個(gè)文件 169600行
通過python循環(huán)讀取文件
首先構(gòu)建詞匯表:
voc = ['a','b','c','d','e','f','g','h','i','j','k','l', 'm','n','o','p','q','r','s','t','u','v','w','x', 'y','z'] voc_short = ['a','b','c','d','e','f','g','h','i','j','k','l', 'm','n','o','p','q','r','s','t','u','v']
為了方便讀取,將49個(gè)二進(jìn)制文件轉(zhuǎn)換成numpy專用二進(jìn)制格式*.npy
for i in voc: data_name = 'data_a'+str(i) f = open(data_name,'rb') data_raw = struct.unpack('f'*209920000,f.read(4*209920000)) f.close() data = np.asarray(data_raw).reshape(-1,1025) np.save(data_name+'.npy',data) # 保存data_a*.npy文件 for i in voc_short: data_name = 'data_b'+str(i) f = open(data_name,'rb') data_raw = struct.unpack('f'*209920000,f.read(4*209920000)) f.close() data = np.asarray(data_raw).reshape(-1,1025) np.save(data_name+'.npy',data) # 保存data_b*.npy文件 data_name = 'data_bw' f = open(data_name,'rb') data_raw = struct.unpack('f'*173840000,f.read(4*173840000)) np.save(data_name+'.npy',data_raw) # 保存data_bw.npy文件
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
