在数据结构化文档中,可以分别定义文档语义(内容的意义)与文档显示(内容的表现形式)。例如,可以使用 Microsoft Office Word 2007 创建发票,在其中将一个数字定义为“总计”。要将该数字确定为“总计”,不必依赖于格式(如粗体)或位置(如表格最后一行)。作为数据结构化文档,该发票包含在语义上可识别的内容(包括“总计”),可以进行提取和处理,并独立于 Office Word 2007。

文档中数据的这种流动性是可以实现的,因为数据遵循可扩展标记语言 (XML) 的规则,可扩展标记语言是一种结构化数据的非专有开放协议。

Office Word 2007 提供了创建数据结构化文档的功能,以实现以下三种情况:

  1、通过使用默认的文件格式实现文档处理
  2、将自定义业务流程合并到文档
  3、在 XML 架构下用 XML 元素标记内容