Ruby解析XML(REXML)
XML是可擴展的標記語言,如HTML。它允許程序員開發可以被其他應用程序讀取的應用程序,而不管使用的是什麼操作系統和開發語言。
它可用於保存中小型數據量,不用在後端有任何基於SQL的技術。
REXML是一個純Ruby的XML處理器。 它表示一個完整的XML文檔,包括PI,doctype等。一個XML文檔有一個可以由root()
訪問的單個子對象。 如果想要爲創建的文檔提供XML聲明,則必須自己添加一個。 REXML文檔不爲您寫入默認聲明。
REXML靈感來自於Java的Electric XML庫。 它的API易於使用,體積小巧,並遵循Ruby方法的方法命名和代碼流。
它支持樹和流文檔解析。 Steam
解析比樹解析快1.5
倍。 但是,在流解析中無法訪問某些功能(如XPath)。
REXML功能:
- 它100%使用Ruby語言編寫。
- 它包含少於2000行代碼,因此更輕巧。
- 它的方法和類很容易理解。
- 它隨Ruby安裝一起提供,不需要單獨安裝。
- 它用於DOM和SAX解析。
解析XML和訪問元素
現在,從解析XML文檔開始,下面是一個示例代碼:
require "rexml/document"
file = File.new( "trial-1.xml" )
doc = REXML::Document.new file
在上面的代碼中,第3
行用於解析提供的文件。
示例
require 'rexml/document'
# file : rexml-example.rb
include REXML
file = File.new("trial-1.xml")
doc = Document.new(file)
puts docs
在上面的代碼中,require
語句加載了REXML庫。 然後包括REXML表示不必使用像REXML:: Document
這樣的名稱。創建了trial-1.xml
文件。並將文檔顯示在屏幕上。
F:\worksp\ruby>ruby rexml-example.rb
<?xml version='1.0' encoding='UTF-8'?>
<root>
Hello, this is first REXML use.
</root>
F:\worksp\ruby>
Document.new
方法將IO
,String
對象或Document
作爲參數。此參數指定必須讀取XML文檔的內容。
如果Document構造函數使用Document
作爲參數,則將其所有元素節點克隆到新的Document對象。 如果構造函數接受一個String參數,則字符串將包含一個XML文檔。
XML 和 「Here Document」
這裏文檔(「Here Document」)是一種指定文本塊,保留換行符,空格或使用文本標識的方法。
使用「<<
」命令後跟令牌字符串構建文檔。
在Ruby中,「<<
」和令牌字符串之間不應有空格。
實例
#!/usr/bin/env ruby
# file : rexml-heredoc.rb
require 'rexml/document'
include REXML
info = <<XML
<info>
<name>Maxsu</name>
<street>人民大道</street>
<city>海口</city>
<contact>9854126575</contact>
<country>中國</country>
</info>
XML
document = Document.new( info )
puts document
執行上面代碼,得到以下結果 -
F:\worksp\ruby>ruby rexml-heredoc.rb
<info>
<name>Maxsu</name>
<street>人民大道</street>
<city>海口</city>
<contact>9854126575</contact>
<country>中國</country>
</info>
F:\worksp\ruby>
在這裏,在這裏使用文檔信息。 包括<<EOF
和EOF
之間的所有字符都是信息的一部分。
對於XML解析示例,使用以下XML文件代碼作爲輸入:
執行上面代碼,得到以下結果 -
#!/usr/bin/ruby -w
require 'rexml/document'
# file : rexml-newxml.rb
include REXML
xmlfile = File.new("trial-2.xml")
xmldoc = Document.new(xmlfile)
# Now get the root element
root = xmldoc.root
puts "Root element : " + root.attributes["shelf"]
# This will output all the cloth titles.
xmldoc.elements.each("collection/clothing"){
|e| puts "cloth Title : " + e.attributes["title"]
}
# This will output all the cloth types.
xmldoc.elements.each("collection/clothing/type") {
|e| puts "cloth Type : " + e.text
}
# This will output all the cloth description.
xmldoc.elements.each("collection/clothing/description") {
|e| puts "cloth Description : " + e.text
}
Ruby XML DOM類似的解析
這裏演示以樹形解析XML數據。 將以上文件trial.xml
代碼作爲輸入。
#!/usr/bin/ruby -w
require 'rexml/document'
include REXML
xmlfile = File.new("trial.xml")
xmldoc = Document.new(xmlfile)
# Now get the root element
root = xmldoc.root
puts "Root element : " + root.attributes["shelf"]
# This will output all the cloth titles.
xmldoc.elements.each("collection/clothing"){
|e| puts "cloth Title : " + e.attributes["title"]
}
# This will output all the cloth types.
xmldoc.elements.each("collection/clothing/type") {
|e| puts "cloth Type : " + e.text
}
# This will output all the cloth description.
xmldoc.elements.each("collection/clothing/description") {
|e| puts "cloth Description : " + e.text
}
Ruby XML以SAX類似的解析
這裏演示以流的方式解析XML數據。 將文件trial.xml
代碼作爲輸入。 在這裏將定義一個偵聽器類,其方法將被解析器的回調目標。
建議不要對小文件使用類似SAX的解析。
#!/usr/bin/ruby -w
require 'rexml/document'
require 'rexml/streamlistener'
include REXML
class MyListener
include REXML::StreamListener
def tag_start(*args)
puts "tag_start: #{args.map {|x| x.inspect}.join(', ')}"
end
def text(data)
return if data =~ /^\w*$/ # whitespace only
abbrev = data[0..40] + (data.length > 40 ? "..." : "")
puts " text : #{abbrev.inspect}"
end
end
list = MyListener.new
xmlfile = File.new("trial.xml")
Document.parse_stream(xmlfile, list)