Java StAX:XMLEventReader-迭代器API

时间:2020-01-09 10:36:31  来源:igfitidea点击:

Java StAX中的XMLEventReader类提供了用于解析XML的Iterator风格的API。换句话说,它允许我们在XML中的事件之间移动,从而控制何时移动到下一个事件。例如,在这种情况下,"事件"是元素的开头,元素的结尾,一组文本等。换句话说,我们从SAX解析器获得的事件几乎相同。

我们可以通过javax.xml.stream.XMLInputFactory类创建一个XMLEventReader。看起来是这样的:

XMLInputFactory factory = XMLInputFactory.newInstance();

//get Reader connected to XML input from somewhere..
Reader reader = getXmlReader();

try {

    XMLEventReader eventReader =
    factory.createXMLEventReader(reader);
    
} catch (XMLStreamException e) {
    e.printStackTrace();
}

创建完成后,我们可以遍历底层Reader的XML输入。看起来是这样的:

while(eventReader.hasNext()){

    XMLEvent event = eventReader.nextEvent();

    if(event.getEventType() == XMLStreamConstants.START_ELEMENT){
        StartElement startElement = event.asStartElement();
        System.out.println(startElement.getName().getLocalPart());
    }
    //handle more event types here...
}

我们可以通过调用XMLStreamReader的nextEvent()方法来获取XMLEvent对象。从事件对象中,可以通过调用其getEventType()方法来检查事件的类型。根据遇到的事件类型,我们将执行不同的操作。

XML流事件

以下是我们在XML流中可能遇到的事件的列表。在接口javax.xml.stream.XMLStreamConstants中,每个事件都有一个常量。

  • ATTRIBUTE
  • CDATA
  • CHARACTERS
  • COMMENT
  • DTD
  • END_DOCUMENT
  • END_ELEMENT
  • ENTITY_DECLARATION
  • ENTITY_REFERENCE
  • NAMESPACE
  • NOTATION_DECLARATION
  • PROCESSING_INSTRUCTION
  • SPACE
  • START_DOCUMENT
  • START_ELEMENT

XMLEvent处理

从XMLEvent对象,我们可以访问相应的XML数据。我们还可以获取有关在XML流中遇到事件的位置(行号+列号)的信息。

通过调用以下三种方法之一,可以将事件对象转变为更特定的事件类型对象:

  • asStartElement()
  • asEndElement()
  • asCharacters()

我还不知道该如何处理诸如START_DOCUMENT,NAMESPACE或者PROCESSING_INSTRUCTION之类的事件。这样做时,我将更新此文本。幸运的是,我们通常只需要START_ELEMENT,END_ELEMENT和CHARACTERS事件,因此缺乏知识并不是至关重要的。

XMLEvent.asStartElement()

asStartElement()方法返回一个java.xml.stream.StartElement对象。从该对象中,我们可以获取元素的名称,元素的名称空间以及元素的属性。有关更多详细信息,请参见Java 6 JavaDoc。

XMLEvent.asEndElement()

asEndElement()方法返回一个java.xml.stream.EndElement对象。从该对象可以获取元素名称和名称空间。

XMLEvent.asCharacters()

asCharacters()方法返回一个java.xml.stream.Characters对象。从该对象中,我们可以获取字符本身,以及字符是否为CDATA,空白或者可忽略的空白。