欧美一二三区精品,free性欧美,久久视频社区

本文對Python爬蟲常用的模塊做了較為深入的分析，并以實(shí)例加以深入說明。分享給大家供大家參考之用。具體分析如下：

creepy模塊

某臺灣大神開發(fā)的，功能簡單，能夠自動抓取某個網(wǎng)站的所有內(nèi)容，當(dāng)然你也可以設(shè)定哪些url需要抓。

地址：https://pypi.python.org/pypi/creepy

功能接口：

set_content_type_filter:
設(shè)定抓取的content-type（header中的contenttype）。包括text/html

add_url_filter：
過濾url，傳入的可以是正則表達(dá)式

set_follow_mode：
設(shè)定遞歸模式，F(xiàn)_ANY：該頁面上所有鏈接都會抓取。 F_SAME_DOMAIN和F_SAME_HOST類似。即同一個域名的都會抓取。F_SAME_PATH：同一路徑的抓取。例如bag.vancl.com/l1/d3/1.jpg path為l1/d3/1.jpg，則path為l1/d3/*的都會抓取。這里可以根據(jù)需要增加自己的遞歸模式

set_concurrency_level：
設(shè)定線程最大數(shù)

process_document：
一般需要重寫，處理網(wǎng)頁內(nèi)容，提取自己需要的內(nèi)容。

selenium
可視化界面，抓取自動化，api使用超簡單，完全像是自己在操作瀏覽器。

官方網(wǎng)站：http://www.seleniumhq.org/
python官方網(wǎng)站
http://pypi.python.org/pypi/selenium
webdriver api（很好用，建議多了解一下）
http://www.seleniumhq.org/docs/03_webdriver.jsp

以下是一個抓取凡客網(wǎng)站的例子：

            
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Firefox()
browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n')
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
time.sleep(1)
print elem.get_attribute("href")
elem.click()

time.sleep(1)
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
print elem.get_attribute("href")
elem.click()

希望本文所述對大家的Python程序設(shè)計有所幫助。

更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯(lián)系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點(diǎn)擊下面給點(diǎn)支持吧，站長非常感激您！手機(jī)微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點(diǎn)擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義

日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

python爬蟲常用的模塊分析