久久66热re国产,欧美日韩午夜电影网,久久婷婷麻豆

我第一次接觸爬蟲這東西是在今年的5月份，當(dāng)時寫了一個博客搜索引擎，所用到的爬蟲也挺智能的，起碼比電影來了這個站用到的爬蟲水平高多了！

回到用Python寫爬蟲的話題。

Python一直是我主要使用的腳本語言，沒有之一。Python的語言簡潔靈活，標(biāo)準(zhǔn)庫功能強(qiáng)大，平常可以用作計(jì)算器，文本編碼轉(zhuǎn)換，圖片處理，批量下載，批量處理文本等。總之我很喜歡，也越用越上手，這么好用的一個工具，一般人我不告訴他。。。

因?yàn)槠鋸?qiáng)大的字符串處理能力，以及urllib2，cookielib，re，threading這些模塊的存在，用Python來寫爬蟲就簡直易于反掌了。簡單到什么程度呢。我當(dāng)時跟某同學(xué)說，我寫電影來了用到的幾個爬蟲以及數(shù)據(jù)整理的一堆零零散散的腳本代碼行數(shù)總共不超過1000行，寫電影來了這個網(wǎng)站也只有150來行代碼。因?yàn)榕老x的代碼在另外一臺64位的黑蘋果上，所以就不列出來，只列一下VPS上網(wǎng)站的代碼，tornadoweb框架寫的

          
[xiaoxia@307232 movie_site]$ wc -l *.py template/*
          

          ? 156 msite.py
          

          ?? 92 template/base.html
          

          ?? 79 template/category.html
          

          ?? 94 template/id.html
          

          ?? 47 template/index.html
          

          ?? 77 template/search.html

下面直接show一下爬蟲的編寫流程。 以下內(nèi)容僅供交流學(xué)習(xí)使用，沒有別的意思。

以某灣的最新視頻下載資源為例，其網(wǎng)址是

http://某piratebay.se/browse/200

因?yàn)樵摼W(wǎng)頁里有大量廣告，只貼一下正文部分內(nèi)容：

對于一個python爬蟲，下載這個頁面的源代碼，一行代碼足以。這里用到urllib2庫。

          
>>> import urllib2
          

          >>> html = urllib2.urlopen('http://某piratebay.se/browse/200').read()
          

          >>> print 'size is', len(html)
          

          size is 52977

當(dāng)然，也可以用os模塊里的system函數(shù)調(diào)用wget命令來下載網(wǎng)頁內(nèi)容，對于掌握了wget或者curl工具的同學(xué)是很方便的。

使用Firebug觀察網(wǎng)頁結(jié)構(gòu)，可以知道正文部分html是一個table。每一個資源就是一個tr標(biāo)簽。

而對于每一個資源，需要提取的信息有：

1、視頻分類
2、資源名稱
3、資源鏈接
4、資源大小
5、上傳時間

就這么多就夠了，如果有需要，還可以增加。

首先提取一段tr標(biāo)簽里的代碼來觀察一下。

          

          ??
          

          ???
          
            

            ????
            
              視頻
            
            

            

            ????(
            
              電視
            
            )
            

            ???
          
          

          ??
          

          ??
          

          
            ???
            
              The Walking Dead Season 3 Episodes 1-3 HDTV-x264
            
            

          
          

          
            
          
          ???
          
            
          
          
          
          

          ???
          
            已上傳 
            
              3?分鐘前
            
            , 大小 2?GiB, 上傳者 
            
              paridha
            
          
          

          ??
          

          ??0
          

          ??0
          

          ?

下面用正則表達(dá)式來提取html代碼中的內(nèi)容。對正則表達(dá)式不了解的同學(xué)，可以去 http://docs.python.org/2/library/re.html 了解一下。

為何要用正則表達(dá)式而不用其他一些解析HTML或者DOM樹的工具是有原因的。我之前試過用BeautifulSoup3來提取內(nèi)容，后來發(fā)覺速度實(shí)在是慢死了啊，一秒鐘能夠處理100個內(nèi)容，已經(jīng)是我電腦的極限了。。。而換了正則表達(dá)式，編譯后處理內(nèi)容，速度上直接把它秒殺了！

提取這么多內(nèi)容，我的正則表達(dá)式要如何寫呢？

根據(jù)我以往的經(jīng)驗(yàn)， “.*?”或者“.+?”這個東西是很好使的。 不過也要注意一些小問題，實(shí)際用到的時候就會知道

對于上面的tr標(biāo)簽代碼，我首先需要讓我的表達(dá)式匹配到的符號是

表示內(nèi)容的開始，當(dāng)然也可以是別的，只要不要錯過需要的內(nèi)容即可。然后我要匹配的內(nèi)容是下面這個，獲取視頻分類。

( 電視 )

接著我要匹配資源鏈接了，

...

再到其他資源信息，

font class="detDesc">已上傳 3?分鐘前 , 大小 2?GiB, 上傳者

最后匹配

大功告成！

當(dāng)然，最后的匹配可以不需要在正則表達(dá)式里表示出來，只要開始位置定位正確了，后面獲取信息的位置也就正確了。

對正則表達(dá)式比較了解的朋友，可能知道怎么寫了。我Show一下我寫的表達(dá)式處理過程，

就這么簡單，結(jié)果出來了，自我感覺挺歡喜的。

當(dāng)然，這樣設(shè)計(jì)的爬蟲是有針對性的，定向爬取某一個站點(diǎn)的內(nèi)容。 也沒有任何一個爬蟲不會對收集到的鏈接進(jìn)行篩選。通常可以使用BFS（寬度優(yōu)先搜索算法）來爬取一個網(wǎng)站的所有頁面鏈接。

完整的Python爬蟲代碼，爬取某灣最新的10頁視頻資源：

          
# coding: utf8
          

          import urllib2
          

          import re
          

          import pymongo
          

          db = pymongo.Connection().test
          

          url = 'http://某piratebay.se/browse/200/%d/3'
          

          find_re = re.compile(r'.+?\(.+?">(.+?).+?class="detLink".+?">(.+?).+?
          
            
              (.+?)
            
            , 大小 (.+?),', re.DOTALL)
            

            # 定向爬去10頁最新的視頻資源
            

            for i in range(0, 10):
            

            ??? u = url % (i)
            

            ??? # 下載數(shù)據(jù)
            

            ??? html = urllib2.urlopen(u).read()
            

            ??? # 找到資源信息
            

            ??? for x in find_re.findall(html):
            

            ??????? values = dict(
            

            ??????????? category = x[0],
            

            ??????????? name = x[1],
            

            ??????????? magnet = x[2],
            

            ??????????? time = x[3],
            

            ??????????? size = x[4]
            

            ??????? )
            

            ??????? # 保存到數(shù)據(jù)庫
            

            ??????? db.priate.save(values)
            

            print 'Done!'

以上代碼僅供思路展示，實(shí)際運(yùn)行使用到mongodb數(shù)據(jù)庫，同時可能因?yàn)闊o法訪問某灣網(wǎng)站而無法得到正常結(jié)果。

所以說，電影來了網(wǎng)站用到的爬蟲不難寫，難的是獲得數(shù)據(jù)后如何整理獲取有用信息。例如，如何匹配一個影片信息跟一個資源，如何在影片信息庫和視頻鏈接之間建立關(guān)聯(lián)，這些都需要不斷嘗試各種方法，最后選出比較靠譜的。

曾有某同學(xué)發(fā)郵件想花錢也要得到我的爬蟲的源代碼。
要是我真的給了，我的爬蟲就幾百來行代碼，一張A4紙，他不會說，坑爹啊！！！……

都說現(xiàn)在是信息爆炸的時代，所以比的還是誰的數(shù)據(jù)挖掘能力強(qiáng)

好吧，那么問題來了學(xué)習(xí)挖掘機(jī)（數(shù)據(jù)）技術(shù)到底哪家強(qiáng)？

更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯(lián)系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點(diǎn)擊下面給點(diǎn)支持吧，站長非常感激您！手機(jī)微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點(diǎn)擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義

日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

使用Python編寫簡單網(wǎng)絡(luò)爬蟲抓取視頻下載資源