日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

python之爬取頁面(urllib庫)

系統 2022 0

urllib庫是python內置的http請求庫,包含四個模塊:

函數 說明
urllib.request 請求模塊
urllib.error 異常處理模塊
urllib.parse URL解析模塊
urllib.robotparser robots.txt模塊

robots.txt是Robots協議(網絡爬蟲排除協議),是互聯網界通行的道德模范,基于以下原則:

  • 搜索技術應服務于人類,同時尊重信息提供者的意愿,并維護其隱私權
  • 網站有義務保護其使用者的個人信息和隱私不被侵犯

爬取白度網頁

            
              import urllib.request
respone=urllib.request.urlopen('http://www.baidu.com')
html=respone.read().decode('UTF-8')
print(html)

            
          

python之爬取頁面(urllib庫)_第1張圖片
核心的爬蟲代碼:urlopen.request.urlopen(url,data=None, [timeout,]*,cafile=None,capath=None,cadefault=False,context=None)

參數 說明
url 目標資源在網站的位置
data 指明額外的請求信息
timeout 超時時間,秒
cafile/capath/cadefault 實現可信任的CA證書的HTTPS請求
context 實現SSL加密傳輸
  • data參數只在打開htttp網址時起作用,默認為None,以GET發送請求,設置后請求方式改為POST
  • data參數必須是bytes對象,符合the standard applocation/x-www-form-urlencoded format標準
  • urlib.parse.urlencode()可以將自定義的data轉化為標準格式,該函數接受mapping類型參數(dict或兩個元素的元組)
    data參數的使用:
            
              import urllib
data=bytes(urllib.parse.urlencode({'world':'hello'}).encode('utf-8'))
response=urllib.request.urlopen('http://httpbin.org/post',data=data)
print(response.read())

            
          

在這里插入圖片描述
timeout參數的使用:

            
              import urllib
response=urllib.request.urlopen('http://httpbin.org/get',timeout=1)
print(response.read())

            
          

在這里插入圖片描述


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 拉萨市| 全椒县| 旬阳县| 荆州市| 涿鹿县| 双城市| 社会| 韩城市| 巴彦淖尔市| 赫章县| 通州市| 庆城县| 临邑县| 怀远县| 锦屏县| 新巴尔虎左旗| 昌乐县| 汝城县| 城固县| 栾城县| 宁阳县| 古丈县| 伊宁县| 东辽县| 句容市| 沾化县| 兖州市| 雷波县| 布拖县| 昆明市| 黄梅县| 金堂县| 修武县| 通山县| 珲春市| 巴楚县| 恩平市| 和顺县| 曲靖市| 房山区| 德保县|