日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)

系統(tǒng) 2140 0

準(zhǔn)備工作

首先是準(zhǔn)備工作,導(dǎo)入需要使用的庫(kù),讀取并創(chuàng)建數(shù)據(jù)表取名為loandata。

            
import numpy as np
import pandas as pd
loandata=pd.DataFrame(pd.read_excel('loan_data.xlsx'))
          

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第1張圖片

設(shè)置索引字段

在開(kāi)始提取數(shù)據(jù)前,先將 member_id 列設(shè)置為索引字段。然后開(kāi)始提取數(shù)據(jù)。

            
Loandata = loandata.set_index('member_id')
          

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第2張圖片

按行提取信息

第一步是按行提取數(shù)據(jù),例如提取某個(gè)用戶(hù)的信息。下面使用ix函數(shù)對(duì) member_id 為1303503的用戶(hù)信息進(jìn)行了提取。

            
loandata.ix[1303503]
          

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第3張圖片

按列提取信息

第二步是按列提取數(shù)據(jù),例如提取用戶(hù)工作年限列的所有信息,下面是具體的代碼和提取結(jié)果,顯示了所有用戶(hù)的工作年齡信息。

            
loandata.ix[:,'emp_length']
          

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第4張圖片

按行與列提取信息

第三步是按行和列提取信息,把前面兩部的查詢(xún)條件放在一起,查詢(xún)特定用戶(hù)的特定信息,下面是查詢(xún) member_id 為1303503的用戶(hù)的 emp_length 信息。

            
loandata.ix[1303503,'emp_length']
          

在前面的基礎(chǔ)上繼續(xù)增加條件,增加一行同時(shí)查詢(xún)兩個(gè)特定用戶(hù)的貸款金額信息。具體代碼和查詢(xún)結(jié)果如下。結(jié)果中分別列出了兩個(gè)用戶(hù)的代碼金額。

            
loandata.ix[[1303503,1298717],'loan_amnt']
          

在前面的代碼后增加 sum 函數(shù),對(duì)結(jié)果進(jìn)行求和,同樣是查詢(xún)兩個(gè)特定用戶(hù)的貸款進(jìn)行,下面的結(jié)果中直接給出了貸款金額的匯總值。

            
loandata.ix[[1303503,1298717],'loan_amnt'].sum()
          

除了增加行的查詢(xún)條件以外,還可以增加列的查詢(xún)條件,下面的代碼中查詢(xún)了一個(gè)特定用戶(hù)的貸款金額和年收入情況,結(jié)果中分別顯示了這兩個(gè)字段的結(jié)果。

            
loandata.ix[1303503,['loan_amnt','annual_inc']]
          

多個(gè)列的查詢(xún)也可以進(jìn)行求和計(jì)算,在前面的代碼后增加 sum 函數(shù),對(duì)這個(gè)用戶(hù)的貸款金額和年收入兩個(gè)字段求和,并顯示出結(jié)果。

            
loandata.ix[1303503,['loan_amnt','annual_inc']].sum()
          


提取特定日期的信息

數(shù)據(jù)提取中還有一種很常見(jiàn)的需求就是按日期維度對(duì)數(shù)據(jù)進(jìn)行匯總和提取,如按月,季度的匯總數(shù)據(jù)提取和按特定時(shí)間段的數(shù)據(jù)提取等等。

設(shè)置索引字段

首先將索引字段改為數(shù)據(jù)表中的日期字段,這里將issue_d設(shè)置為數(shù)據(jù)表的索引字段。按日期進(jìn)行查詢(xún)和數(shù)據(jù)提取。

            
loandata = loandata.set_index('issue_d')
          

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第5張圖片

按日期提取信息

下面的代碼查詢(xún)了所有2016年的數(shù)據(jù)。

            
loandata['2016']
          

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第6張圖片

在前面代碼的基礎(chǔ)上增加月份,查詢(xún)所有2016年3月的數(shù)據(jù)。

            
loandata['2016-03']
          

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第7張圖片

繼續(xù)在前面代碼的基礎(chǔ)上增加日期,查詢(xún)所有2016年6月16日的數(shù)據(jù)。

            
loandata['2016-06-16']
          


Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第8張圖片

除了按單獨(dú)日期查詢(xún)以外,還可以按日期段進(jìn)行數(shù)據(jù)查詢(xún),下面的代碼中查詢(xún)了所有2016年1月至5月的數(shù)據(jù)。下面顯示了具體的查詢(xún)結(jié)果,可以發(fā)現(xiàn)數(shù)據(jù)的日期都是在1-5月的,但是按日期維度顯示的,這就需要我們對(duì)數(shù)據(jù)按月進(jìn)行匯總。

            
loandata['2016-01':'2016-05']
          

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第9張圖片

按日期匯總信息

Pandas中的 resample 函數(shù)可以完成日期的聚合工作,包括按小時(shí)維度,日期維度,月維度,季度及年的維度等等。下面我們分別說(shuō)明。首先是按周的維度對(duì)前面數(shù)據(jù)表的數(shù)據(jù)進(jìn)行求和。下面的代碼中W表示聚合方式是按周,how表示數(shù)據(jù)的計(jì)算方式,默認(rèn)是計(jì)算平均值,這里設(shè)置為 sum ,進(jìn)行求和計(jì)算。

            
loandata.resample('W',how=sum).head(10)
          

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第10張圖片

將W改為M,數(shù)據(jù)變成了按月聚合的方式。計(jì)算方式依然是求和。這里需要說(shuō)明的是 resample 函數(shù)會(huì)顯示出所有連續(xù)的時(shí)間段,例如前面按周的聚合操作會(huì)顯示連續(xù)的周日期,這里的按月操作則會(huì)在結(jié)果中顯示連續(xù)的月,如果某個(gè)時(shí)間段沒(méi)有數(shù)據(jù),會(huì)以NaN值顯示。

            
loandata.resample('M',how=sum)
          

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第11張圖片

將前面代碼中的M改為Q,則為按季度對(duì)數(shù)據(jù)進(jìn)行聚合,計(jì)算方式依然為求和。從下面的數(shù)據(jù)表中看,日期顯示的都是每個(gè)季度的最后一天,如果希望以每個(gè)季度的第一天顯示,可以改為QS。

            
loandata.resample('Q',how=sum)
          

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第12張圖片

將前面代碼中的Q改為A,就是按年對(duì)數(shù)據(jù)進(jìn)行聚合,計(jì)算方式依然為求和。

            
loandata.resample('A',how=sum)
          

前面的方法都是對(duì)整個(gè)數(shù)據(jù)表進(jìn)行聚合和求和操作,如果只需要對(duì)某一個(gè)字段的值進(jìn)行聚合和求和,可以在數(shù)據(jù)表后增加列的名稱(chēng)。下面是將貸款金額字段按月聚合后求和,并用0填充空值。

            
loandata['loan_amnt'].resample('M',how=sum).fillna(0)
          

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第13張圖片

在前面代碼的基礎(chǔ)上再增加一個(gè)數(shù)值字段,并且在后面的計(jì)算方式中增加 len 用來(lái)計(jì)數(shù)。在下面的結(jié)果中分別對(duì)貸款金額和利息收入按月聚合,并進(jìn)行求和和計(jì)數(shù)計(jì)算

            
loandata[['loan_amnt','total_rec_int']].resample('M',how=[len,sum])
          

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第14張圖片

有時(shí)我們需要只對(duì)某一時(shí)間段的數(shù)據(jù)進(jìn)行聚合和計(jì)算,下面的代碼中對(duì)2016年1月至5月的數(shù)據(jù)按月進(jìn)行了聚合,并計(jì)算求和。用0填充空值。

            
loandata['2016-01':'2016-05'].resample('M',how=sum).fillna(0)
          

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第15張圖片

或者只對(duì)某些符合條件的數(shù)據(jù)進(jìn)行聚合和計(jì)算。下面的代碼中對(duì)于貸款金額大于5000的按月進(jìn)行聚合,并計(jì)算求和。空值以0進(jìn)行填充。

            
loandata[loandata['loan_amnt']>5000].resample('M',how=sum).fillna(0)
          

Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第16張圖片

除了按周,月,季度和年以外, resample 函數(shù)還可以按以下方式對(duì)日期進(jìn)行聚合。

下面給出了具體的對(duì)應(yīng)表和說(shuō)明。

? Python進(jìn)行數(shù)據(jù)提取的方法總結(jié)_第17張圖片

總結(jié)

以上就是利用python按特定的維度或條件對(duì)數(shù)據(jù)進(jìn)行提取的全部?jī)?nèi)容,希望本文的內(nèi)容對(duì)大家學(xué)習(xí)使用Python能有所幫助。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 于田县| 韩城市| 丘北县| 青阳县| 图木舒克市| 肇庆市| 盐津县| 渭源县| 榆林市| 平阴县| 南昌市| 天台县| 永年县| 太白县| 新兴县| 永新县| 杭锦后旗| 额济纳旗| 兴隆县| 沙坪坝区| 永昌县| 江华| 神农架林区| 安西县| 兴山县| 独山县| 洛宁县| 通江县| 库伦旗| 上杭县| 永川市| 兖州市| 沾益县| 仁寿县| 贵阳市| 泌阳县| 津市市| 安多县| 长沙市| 马公市| 万州区|