日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

Python爬蟲之爬取小說

系統 2358 0

(^_?)☆本喵的放松方式是看小說,而且類型不限,屬于偏好成謎的那一種。所以從爬取完天氣預報開始,我就開始想著爬取小說,編寫了一個還不算完善的爬取小說程序,期待你們的完善。

小說來源:?

努努書坊:https://www.kanunu8.com/?

山海經:https://www.kanunu8.com/book3/7766/index.html

Python爬蟲之爬取小說_第1張圖片

解析頁面源代碼:?

Python爬蟲之爬取小說_第2張圖片

在頁面源代碼中我們可以看到?url+1為每章節的內容鏈接

  • 小說名字:r' (.+) '
  • 章節目錄:r' (.+) '
  • 小說內容:r'

    (.+)

    '

爬取代碼:?

            
              import re
import requests

url="https://www.kanunu8.com/book3/7766/"
txt=requests.get(url).content.decode("gbk")

m1=re.compile(r'
              
                
                  (.+)
                
              
              ')
print(m1.findall(txt)[0].center(23,'='))

m2=re.compile(r'
              
                (.+)
              
              ')
raw=m2.findall(txt)

SHJ=[(i[2],url+i[1]) for i in raw]	#i[2]為每一章節標題,url+i[1]為每章節的內容鏈接
print("小說目錄已加載完畢!")

m3=re.compile(r'
              

(.+)

',re.S) #每章節小說內容 m4=re.compile(r"
") #
小說內容中的符號 with open("山海經.txt","a") as f: for i in SHJ: print("開始下載--->",i[0]) t1=requests.get(i[1]).content.decode("gbk") #每章節小說內容獲取 nr=m3.findall(t1) #[0] nrl=m4.sub('',nr[0]) f.write(i[0]) f.write("\n") f.write(nrl) f.write("\n\n") print("下載完畢!")

執行結果:?

Python爬蟲之爬取小說_第3張圖片

?

?


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 富平县| 鄂尔多斯市| 临桂县| 黔江区| 平潭县| 蒙自县| 石渠县| 崇左市| 西宁市| 闽清县| 合阳县| 密云县| 应城市| 潮安县| 昌图县| 伊春市| 镇坪县| 成都市| 江永县| 平遥县| 青州市| 安图县| 大埔县| 城固县| 望谟县| 通化县| 封丘县| 抚远县| 桐城市| 华蓥市| 遂平县| 武山县| 武鸣县| 民勤县| 高安市| 嘉兴市| 深水埗区| 施秉县| 西林县| 馆陶县| 苍山县|