在采集網(wǎng)頁(yè)信息的時(shí)候,經(jīng)常需要偽造報(bào)頭來實(shí)現(xiàn)采集腳本的有效執(zhí)行
下面,我們將使用urllib2的header部分偽造報(bào)頭來實(shí)現(xiàn)采集信息
方法1、
#!/usr/bin/python # -*- coding: utf-8 -*- #encoding=utf-8 #Filename:urllib2-header.py import urllib2 import sys #抓取網(wǎng)頁(yè)內(nèi)容-發(fā)送報(bào)頭-1 url= "http://www.jb51.net" send_headers = { 'Host':'www.jb51.net', 'User-Agent':'Mozilla/5.0 (Windows NT 6.2; rv:16.0) Gecko/20100101 Firefox/16.0', 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Connection':'keep-alive' } req = urllib2.Request(url,headers=send_headers) r = urllib2.urlopen(req) html = r.read() #返回網(wǎng)頁(yè)內(nèi)容 receive_header = r.info() #返回的報(bào)頭信息 # sys.getfilesystemencoding() html = html.decode('utf-8','replace').encode(sys.getfilesystemencoding()) #轉(zhuǎn)碼:避免輸出出現(xiàn)亂碼 print receive_header # print '####################################' print html
方法2、
#!/usr/bin/python # -*- coding: utf-8 -*- #encoding=utf-8 #Filename:urllib2-header.py import urllib2 import sys url = '//www.jb51.net' req = urllib2.Request(url) req.add_header('Referer','//www.jb51.net/') req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.2; rv:16.0) Gecko/20100101 Firefox/16.0') r = urllib2.urlopen(req) html = r.read() receive_header = r.info() html = html.decode('utf-8').encode(sys.getfilesystemencoding()) print receive_header print '#####################################' print html
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
