日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

Python中使用HTMLParser解析html實例

系統 2033 0

前幾天遇到一個問題,需要把網頁中的一部分內容挑出來,于是找到了urllib和HTMLParser兩個庫.urllib可以將網頁爬下來,然后交由HTMLParser解析,初次使用這個庫,在查官方文檔時也遇到了一些問題,在這里寫下來與大家分享.

一個例子

復制代碼 代碼如下:

from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
? def handle_starttag(self, tag, attrs):
??? print "a start tag:",tag,self.getpos()
parser=MyHTMLParser()
parser.feed('

"hello"

')

這個例子里HTMLParser是基類,重載了他的handle_starttag方法,輸出了一些信息.parser是MyHTMLParser的實例,調用feed方法開始解析函數.值得注意的是,不需要顯示調用handle_starttag方法就會執行.

HTMLParser方法的調用方式困惑了我很長時間,看了很多博文才恍然大悟,HTMLParser含有的方法分為兩類,一類是需要顯式調用的,而另一類不需顯示調用.

不需顯式調用的方法

下面的這些函數在解析的過程中會觸發,但是默認情況下不會產生任何副作用,因而我們要根據自己的需求重載.

1.HTMLParser.handle_starttag(tag,attrs): 解析時遇到開始標簽調用,如

,參數tag是標簽名,這里是'p',attrs為標簽所有屬性(name,value)列表,這里是[('class','para')]

2.HTMLParser.handle_endtag(tag): 遇到結束標簽時調用,tag是標簽名

3.HTMLPars.handle_data(data): 遇到標簽中間的內容時調用,如 ,參數data為開閉標簽間的內容.值得注意的是在形如

...

的位置,并不會在div處調用,而是只在p處調用

當然還有其他函數,這里不做介紹

顯式調用的方法

1.HTMLParser.feed(data): 參數為需要解析的html字符串,調用后字符串開始被解析

2.HTMLParser.getpos(): 返回當前的行號和偏移位置,如(23,5)

3.HTMLParser.get_starttag_text(): 返回當前位置最近的開始標簽的內容

所有的內容寫完了,最后還有一點注意事項,HTMLParser只是一個簡單的模塊,解析html的功能并不完善,例如不能準確的分別開標簽和"自閉標簽",看下面代碼:

復制代碼 代碼如下:

from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
? def handle_starttag(self,tag,attrs):
??? print 'begin tag',tag
? def handle_startendtag(self,tag,attrs):
??? print 'begin end tag',tag

str1='
'
str2='
'
parser=MyHTMLParser()

parser.feed(str1)??? # 輸出 "begin tag br"
parser.feed(str2)??? # 輸出 "begin end br"


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 平谷区| 义乌市| 清水县| 柞水县| 京山县| 崇信县| 沙田区| 蚌埠市| 新绛县| 阿拉善左旗| 海丰县| 宣化县| 潢川县| 巴南区| 黄浦区| 兰溪市| 伊宁县| 北宁市| 曲靖市| 临泉县| 彩票| 洛阳市| 滨州市| 高邮市| 中宁县| 溆浦县| 彭州市| 高邮市| 克拉玛依市| 连山| 绵阳市| 福建省| 渝北区| 江孜县| 禄丰县| 沿河| 措勤县| 普格县| 睢宁县| 石泉县| 浮山县|