日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

Python中使用ElementTree解析XML示例

系統(tǒng) 1793 0

【XML基本概念介紹】

XML 指可擴展標記語言(eXtensible Markup Language)。
XML 被設(shè)計用來傳輸和存儲數(shù)據(jù)。
概念一:

復(fù)制代碼 代碼如下:

????? # foo元素的起始標簽?
???? # foo元素的結(jié)束標簽?
?????????? # note: 每一個起始標簽必須有對應(yīng)的結(jié)束標簽來閉合, 也可以寫成 ?

概念二:
復(fù)制代碼 代碼如下:

?????????? # 元素可以嵌套到任意參次?
? ?? # bar元素為foo元素的子元素?
????????? # 父元素foo的結(jié)束標簽?

概念三:
復(fù)制代碼 代碼如下:

????????????????? # foo元素有個lang的屬性,該屬性值為: EN;對應(yīng)Python字典(Name-Value)對;?????????????????????????????
? # bar元素有個lang的屬性,該屬性值為: CH;還有個id屬性,值為:001,放置在''或“”中;??
?????????????????????????? # bar元素中的lang屬性不會和foo元素中相沖突,每個元素都有獨立的屬性集;

概念四:

復(fù)制代碼 代碼如下:

# 元素可以有文本內(nèi)容?
??????????????????????????????? # Note:如果一個元素即沒有文本內(nèi)容,也沒有子元素,則為空元素。?

概念五:
復(fù)制代碼 代碼如下:

????????????????????????????????? # info元素為根節(jié)點?
??? A ?????????? # list元素為子節(jié)點?
??? B ??
??? C ?
?

概念六:
復(fù)制代碼 代碼如下:

? # 可以通過聲明xmlns來定義默認名字空間,feed元素處于http://www.w3.org/2005/Atom命名空間中?
? ???????????? # title元素也是。名字空間聲明不僅會作用于當前聲明它的元素,還會影響到該元素的所有子元素?
?
也可以通過xmlns:prefix聲明來定義一個名字空間并取其名為prefix。
然后該名字空間中的每個元素都必須顯式地使用這個前綴(prefix)來聲明。
? # feed屬于命名空間atom?
? dive into mark ???????????? # title元素同樣屬于該命名空間????????????
????????????????????????????????????????? # xmlns(XML Name Space)?

【XML幾種解析方法】

常見的XML編程接口有DOM和SAX,這兩種接口處理XML文件的方式不同,使用場合自然也就不同。

Python有三種方法解析XML: SAX,DOM,以及ElementTree:

1.SAX (Simple API for XML )

Pyhton標準庫包含SAX解析器,SAX用事件驅(qū)動模型,通過在解析XML的過程中觸發(fā)一個個的事件并調(diào)用用戶定義的回調(diào)函數(shù)來處理XML文件。SAX是一種基于事件驅(qū)動的API。利用SAX解析XML文檔牽涉到兩個部分:解析器和事件處理器。
解析器負責讀取XML文檔,并向事件處理器發(fā)送事件,如元素開始及結(jié)束事件;而事件處理器則負責對事件作出處理。
優(yōu)點:SAX流式讀取XML文件,比較快,占用內(nèi)存少。
缺點:需要用戶實現(xiàn)回調(diào)函數(shù)(handler)。

2.DOM(Document Object Model)

將XML數(shù)據(jù)在內(nèi)存中解析成一個樹,通過對樹的操作來操作XML。一個DOM的解析器在解析一個XML文檔時,一次性讀取整個文檔,把文檔中所有元素保存在內(nèi)存中的一個樹結(jié)構(gòu)里,之后你可以利用DOM提供的不同的函數(shù)來讀取或修改文檔的內(nèi)容和結(jié)構(gòu),也可以把修改過的內(nèi)容寫入xml文件。
優(yōu)點:使用DOM的好處是你不需要對狀態(tài)進行追蹤,因為每一個節(jié)點都知道誰是它的父節(jié)點,誰是子節(jié)點.
缺點:DOM需要將XML數(shù)據(jù)映射到內(nèi)存中的樹,一是比較慢,二是比較耗內(nèi)存,使用起來也比較麻煩!

3.ElementTree(元素樹)

ElementTree就像一個輕量級的DOM,具有方便友好的API。代碼可用性好,速度快,消耗內(nèi)存少。
相比而言,第三種方法,即方便,又快速,我們一直用它!下面介紹用元素樹如何解析XML:

【ElementTree解析】

兩種實現(xiàn)

ElementTree生來就是為了處理XML ,它在Python標準庫中有兩種實現(xiàn)。
一種是純Python實現(xiàn),例如: xml.etree.ElementTree
另外一種是速度快一點的:?? xml.etree.cElementTree
盡量使用C語言實現(xiàn)的那種,因為它速度更快,而且消耗的內(nèi)存更少! 在程序中可以這樣寫:

復(fù)制代碼 代碼如下:

try:?
??? import xml.etree.cElementTree as ET?
except ImportError:?
??? import xml.etree.ElementTree as ET?

常用方法
復(fù)制代碼 代碼如下:

# 當要獲取屬性值時,用attrib方法。?
# 當要獲取節(jié)點值時,用text方法。?
# 當要獲取節(jié)點名時,用tag方法。?

示例XML

復(fù)制代碼 代碼如下:

?
?
?? Book message ?
??? ?
??????? bookone?
??????? python check ?
??????? 001 ?
??????? 200 ?
???
?
??? ?
??????? booktwo?
??????? python learn ?
??????? 002 ?
??????? 300 ?
???
?
?

###########
##? 加載XML
###########

方法一:加載文件

復(fù)制代碼 代碼如下:

root = ET.parse('book.xml')?

方法二:加載字符串
復(fù)制代碼 代碼如下:

root = ET.fromstring(xmltext)

###########
## 獲取節(jié)點
###########

方法一:獲得指定節(jié)點->getiterator()方法

復(fù)制代碼 代碼如下:

book_node = root.getiterator('list')

方法二:獲得指定節(jié)點->findall()方法
復(fù)制代碼 代碼如下:

book_node = root.findall('list')?

方法三:獲得指定節(jié)點->find()方法
復(fù)制代碼 代碼如下:

book_node = root.find('list')?

方法四:獲得兒子節(jié)點->getchildren()
復(fù)制代碼 代碼如下:

for node in book_node:?
??? book_node_child = node.getchildren()[0]?
??? print book_node_child.tag, '=> ', book_node_child.text
?


###########
##? 例子01
###########

復(fù)制代碼 代碼如下:

# coding=utf-8?
?
try:?????????????????????????????????????????? # 導(dǎo)入模塊?
??? import xml.etree.cElementTree as ET?
except ImportError:?
??? import xml.etree.ElementTree as ET?
?
root?? = ET.parse('book.xml')???????????????? # 分析XML文件?
books? = root.findall('/list')??????????????? # 查找所有根目錄下的list的子節(jié)點?
for book_list in books:?????????????????????? # 對查找后的結(jié)果遍歷?
??? print "=" * 30??????????????????????????? # 輸出格式????????????
??? for book in book_list:??????????????????? # 對每個子節(jié)點再進行遍歷,找出里面你的屬性及值??????????????????????
??????? if book.attrib.has_key('id'):???????? # 一句id來做條件判斷?
??????????? print "id:", book.attrib['id']??? # 根據(jù)id打印出屬性值?
??????? print book.tag + '=> ' + book.text??? # 輸出標簽及文本內(nèi)容?
print "=" * 30?

輸出結(jié)果:
復(fù)制代碼 代碼如下:

==============================?
head=> bookone?
name=> python check?
number=> 001?
page=> 200?
==============================?
head=> booktwo?
name=> python learn?
number=> 002?
page=> 300?
==============================?

PS:這里再為大家提供幾款關(guān)于xml操作的在線工具供大家參考使用:

在線XML/JSON互相轉(zhuǎn)換工具:
http://tools.jb51.net/code/xmljson

在線格式化XML/在線壓縮XML:
http://tools.jb51.net/code/xmlformat

XML在線壓縮/格式化工具:
http://tools.jb51.net/code/xml_format_compress


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 安庆市| 怀来县| 庄河市| 伊通| 闽清县| 西峡县| 贞丰县| 奉节县| 金山区| 太白县| 江北区| 石台县| 黎城县| 衡东县| 佛教| 洪湖市| 准格尔旗| 广南县| 泰兴市| 连州市| 肃北| 德清县| 长葛市| 师宗县| 霸州市| 延吉市| 定日县| 淳化县| 沐川县| 东方市| 菏泽市| 天门市| 汉源县| 勐海县| 益阳市| 南京市| 洛隆县| 阳信县| 台湾省| 万盛区| 东光县|