本文對Python爬蟲常用的模塊做了較為深入的分析,并以實(shí)例加以深入說明。分享給大家供大家參考之用。具體分析如下:
creepy模塊
某臺灣大神開發(fā)的,功能簡單,能夠自動抓取某個網(wǎng)站的所有內(nèi)容,當(dāng)然你也可以設(shè)定哪些url需要抓。
地址:https://pypi.python.org/pypi/creepy
功能接口:
set_content_type_filter:
設(shè)定抓取的content-type(header中的contenttype)。包括text/html
add_url_filter:
過濾url,傳入的可以是正則表達(dá)式
set_follow_mode:
設(shè)定遞歸模式,F(xiàn)_ANY:該頁面上所有鏈接都會抓取。 F_SAME_DOMAIN和F_SAME_HOST類似。即同一個域名的都會抓取。F_SAME_PATH:同一路徑的抓取。例如bag.vancl.com/l1/d3/1.jpg path為l1/d3/1.jpg,則path為l1/d3/*的都會抓取。這里可以根據(jù)需要增加自己的遞歸模式
set_concurrency_level:
設(shè)定線程最大數(shù)
process_document:
一般需要重寫,處理網(wǎng)頁內(nèi)容,提取自己需要的內(nèi)容。
selenium
可視化界面,抓取自動化,api使用超簡單,完全像是自己在操作瀏覽器。
官方網(wǎng)站:http://www.seleniumhq.org/
python官方網(wǎng)站
http://pypi.python.org/pypi/selenium
webdriver api(很好用,建議多了解一下)
http://www.seleniumhq.org/docs/03_webdriver.jsp
以下是一個抓取凡客網(wǎng)站的例子:
from selenium import webdriver from selenium.webdriver.common.keys import Keys import time browser = webdriver.Firefox() browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n') elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box time.sleep(1) print elem.get_attribute("href") elem.click() time.sleep(1) elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box print elem.get_attribute("href") elem.click()
希望本文所述對大家的Python程序設(shè)計有所幫助。
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
