日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

編寫Python爬蟲抓取暴走漫畫上gif圖片的實(shí)例分享

系統(tǒng) 1953 0

本文要介紹的爬蟲是抓取暴走漫畫上的GIF趣圖,方便離線觀看。爬蟲用的是python3.3開發(fā)的,主要用到了urllib、request和BeautifulSoup模塊。

urllib模塊提供了從萬維網(wǎng)中獲取數(shù)據(jù)的高層接口,當(dāng)我們用urlopen()打開一個(gè)URL時(shí),就相當(dāng)于我們用Python內(nèi)建的open()打開一個(gè)文件。但不同的是,前者接收一個(gè)URL作為參數(shù),并且沒有辦法對(duì)打開的文件流進(jìn)行seek操作(從底層的角度看,因?yàn)閷?shí)際上操作的是socket,所以理所當(dāng)然地沒辦法進(jìn)行seek操作),而后者接收的是一個(gè)本地文件名。

Python的BeautifulSoup模塊,可以幫助你實(shí)現(xiàn)HTML和XML的解析
先說一下,一般寫網(wǎng)頁爬蟲,即抓取網(wǎng)頁的html源碼等內(nèi)容,然后分析,提取相應(yīng)的內(nèi)容。
這種分析html內(nèi)容的工作,如果只是用普通的正則表達(dá)式re模塊去一點(diǎn)點(diǎn)匹配的話,對(duì)于內(nèi)容簡(jiǎn)單點(diǎn)的網(wǎng)頁分析,還是基本夠用。
但是對(duì)于工作量很大,要解析內(nèi)容很繁雜的html,那么用re模塊,就會(huì)發(fā)現(xiàn)無法實(shí)現(xiàn),或很難實(shí)現(xiàn)。
而使用beautifulsoup模塊去幫你實(shí)現(xiàn)分析html源碼的工作的話,你就會(huì)發(fā)現(xiàn),事情變得如此簡(jiǎn)單,極大地提高了分析html源碼的效率。
注:BeautifulSoup是第三方庫,我使用的是bs4。urllib2在python3中被分配到了urllib.request中,文檔中的原文如下。
Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.
爬蟲源代碼如下

            
# -*- coding: utf-8 -*-

import urllib.request
import bs4,os

page_sum = 1 #設(shè)置下載頁數(shù)

path = os.getcwd()
path = os.path.join(path,'暴走GIF')
if not os.path.exists(path):
  os.mkdir(path)                 #創(chuàng)建文件夾

url = "http://baozoumanhua.com/gif/year"   #url地址
headers = {                     #偽裝瀏覽器
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
         ' Chrome/32.0.1700.76 Safari/537.36'
}

for count in range(page_sum):
  req = urllib.request.Request(
    url = url+str(count+1),
    headers = headers
  )
  print(req.full_url)
  content = urllib.request.urlopen(req).read()

  soup = bs4.BeautifulSoup(content)          # BeautifulSoup
  img_content = soup.findAll('img',attrs={'style':'width:460px'})

  url_list = [img['src'] for img in img_content]   #列表推導(dǎo) url
  title_list = [img['alt'] for img in img_content]  #圖片名稱

  for i in range(url_list.__len__()) :
    imgurl = url_list[i]
    filename = path + os.sep +title_list[i] + ".gif"
    print(filename+":"+imgurl)             #打印下載信息
    urllib.request.urlretrieve(imgurl,filename)    #下載圖片


          

在第15行可以修改下載頁數(shù),將此文件保存為baozougif.py,使用命令python baozougif.py運(yùn)行后在同目錄下會(huì)生成「暴走GIF」的文件夾,所有的圖片會(huì)自動(dòng)下載到該目錄中。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦?。?!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 曲靖市| 自贡市| 花莲县| 南和县| 徐水县| 桐庐县| 社旗县| 柳州市| 文登市| 上饶市| 沙坪坝区| 水城县| 龙陵县| 兴国县| 青浦区| 镇坪县| 永顺县| 搜索| 岗巴县| 芦溪县| 杂多县| 辉县市| 江油市| 抚宁县| 东至县| 彝良县| 东城区| 宜兰县| 长兴县| 枣庄市| 浦东新区| 连城县| 资兴市| 营山县| 华容县| 米易县| 乐陵市| 原平市| 嘉义县| 沾化县| 长治县|