XML
编辑XML(Extensible Markup Language,可扩展标记语言),简称XML,是一种以人机可读的文本文件格式表示层次结构数据的标记语言。
XML 还用于计算机系统之间独立于平台和实现的数据交换,特别是在 Internet 上,并于 1998 年 2 月 10 日由万维网联盟 (W3C) 发布。 当前版本是 2008 年 11 月 26 日发布的第五版。XML 是一种元语言,在此基础上通过结构和内容相关的限制定义特定于应用程序的语言。 这些限制由文档类型定义 (DTD) 或 XML 模式表示。 XML 语言的示例有:RSS、MathML、GraphML、XHTML、XAML、可缩放矢量图形 (SVG)、GPX,还有 XML 模式本身。
XML 文档的标准字符编码是 UTF-8。 处理 XML 的系统必须能够使用 UTF-8 和 UTF-16 编码。 使用 UTF-8 或 UTF-16 的 XML 文档可以在任何支持这些编码的文本编辑器中查看和编辑。
如果 XML 文档要包含二进制数据,则必须将此数据重新编码为文本。 这可以例如 B. 可以使用base64编码。
XML技术术语
编辑项目
XML 文档最重要的结构单元是元素。 元素可以包含文本以及其他元素作为内容。 元素构成 XML 文档结构树的节点。 在没有文档类型定义 (DTD) 的情况下,可以在 XML 文档中自由选择 XML 元素的名称。 在具有 DTD 的 XML 文档中,元素的名称必须在 DTD 中声明,并且该元素必须根据 DTD 位于结构树中的合法位置。 除其他事项外,DTD 定义每个元素的可能内容。 元素是 XML 文档中信息的载体。
正式
如果一个 XML 文档符合所有 XML 规则,则它被称为“格式良好”。 此处提及以下内容作为示例:
- 文档只有一个根元素。 最外层的元素称为根元素,例如 ; 到 XHTML。
- 所有包含内容的元素都有开始和结束标记(例如,<entry>entry 1</entry>)。 没有内容的元素可以用空格标记标记(例如 <entry />)。
- 开始标签和结束标签成对嵌套。 这意味着所有元素必须在相应父元素的结束限定符或兄弟元素的开始限定符出现之前关闭。
- 一个元素不能有多个同名的属性。
- 属性值必须用引号引起来(“...”或'...')。
- 开始和结束标签区分大小写(例如,<entry></entry> 无效)。
有效性
如果 XML 将用于数据交换,那么使用语法定义格式(例如文档类型定义或 XML 模式)是有利的。 该标准将 XML 文档定义为有效,前提是它的格式正确、包含对语法的引用并符合语法描述的格式。
解析器
读出、解释并在必要时检查 XML 数据有效性的程序或程序部分称为 XML 解析器。 如果解析器检查有效性,那么它就是一个验证解析器。
XML 文档的结构
编辑物理结构
- 文档实体包含主文档。
- 其他可能的实体在上面
- 实体引用(&name; 用于文档或 %name; 用于文档类型定义)嵌入的字符串,也可能是整个文件,以及对 Zei 的引用实体以包括由其编号引用的单个字符。
- XML 声明用于指定 XML 版本、字符编码以及是否可以在没有 DTD 的情况下进行处理。
- DTD 用于指定实体和允许的逻辑结构。 可以在 XML 声明中取消选择 DTD 的使用。
逻辑结构
逻辑结构对应树结构,因此是分层组织的,树节点有:
- 物理标记使用的元素
- 一对匹配的开始标签; 和结束标记 </tagname> 或
- 一个空标签的 ; 可以做到,
- 属性作为元素的附加属性写入语法属性名称=属性值中的开始标记或空白标记,
- 处理指令 (处理说明),
- 评论<!--Comment-Text-->,和
- 以普通字符数据或 CDATA 部分形式呈现的文本 ; 可能发生。
一个 XML 文档必须只包含一个顶级元素。 附加元素和文本可以嵌套在该文档元素下方。
DTD
编辑文档类型定义 (DTD) 描述文档的结构和语法。 它是 XML 的系统组件,默认激活。
如果文档是参考外部文档类型定义或集成文档类型定义创建的,则解析器在打开(读取)文档时已经检查了该文档。 基于文档类型定义的文档始终是有效文档。 文档内容与文档类型定义规则的一致是最重要的。 技术可读性,即非有效文件的阅读,是次要的。 这适用于全文文档(叙述性文档),是主要使用目的。
没有 DTD 的文档更适合任何数据交换。 解析器仅根据格式良好的规则检查这些文档。 技术可读性是这里的重中之重。 使用下游流程检查和读出实际信息。
XML文档的分类
编辑XML 文档可以根据其预期用途和结构级别分为以文档为中心和以数据为中心的文档。 但是,这些类型的文档之间的界限是不固定的。 混合形式可以描述为半结构化。
- 以文档为中心:文档基于文本文档,即使没有额外的元信息,人类读者也可以理解其中的大部分内容。 XML元素主要用于文档中段落的语义标记,文档只是弱结构化的。 结构薄弱,机加工困难。
- 以数据为中心:文档主要用于机器处理。 它遵循描述数据模型实体并定义实体如何相互关联以及实体具有哪些属性的模式。 因此,该文档高度结构化,不太适合直接供人使用。
- 半结构化:半结构化文档是一种混合体,比以文档为中心的文档结构化程度高,但比以数据为中心的文档弱。
元素具有元素内容或文本内容是典型的以数据为中心的 XML 文档。 所谓的混合内容,其中元素包含文本和子元素,是其他 XML 文档的典型特征。
内容由suifeng提供,本内容不代表globalbaike.com立场,内容投诉举报请联系全球百科客服。如若转载,请注明出处:https://globalbaike.com/518/