xml中的空格之完全讲解
阅读次在xml输入文件中抉择哪些空格是重要的,xslt处理惩罚器要瞥见这些空格结点。而抉择的密钥就是xml:space属性。
只适合对xml文件布局有必然相识的学者,不适合初学者。请按从上至下的顺序阅读。
对html文件而言,空格不重要;然而,对xml而言,默认态度就是要保存空格结点(空格结点的表明见下文)。
按照xml类型的划定,所谓空格是四种字符的任意组合序列:
-----------------------
空格字符(space),对应字符值为 #x20
返回字符(Carriage Return),对应字符值为 #xD
新行字符(Newline),对应字符值为 #xA
跳格字符(Tab),对应字符值为 #x9。
xml文件的空格也会形成结点,也就是空格结点。空格结点属于文字结点范例。
对xml和xslt而言,空格结点会牵涉到两个议题:
-----------------------
1。在xml输入文件中抉择哪些空格是重要的,xslt处理惩罚器要瞥见这些空格结点。而抉择的密钥就是xml:space属性。
2。在xsl模板文件中抉择哪些空格是重要的,xslt处理惩罚器应将它复制到功效树中,而抉择的密钥就是xsl:strip-space
和xsl:preserve-space这两个呼吁。
“重要和不重要的空格结点”
-----------------------
若某组件的内容只能放组件,则该组件中的空格结点就是不重要的(Insignificant);
假如某组件的内容是#PCDATA的范例,则其内的空格结点应视为重要的(Signficant)。
至于组件内容稠浊了文字内容和组件的环境则无从评判,应视组件及其内容之语意而定。
xslt处理惩罚器打仗到xml输入文件之前,会先由xml阐明器举办阐明
-----------------------
(1)xml:space属性可以改变后续接办的xml应用措施处理惩罚空格结点的模式,譬喻,xslt处理惩罚器就会受xml:space属性影响。
(2)xml文件中任何一列标志或内容尾端的末了的末了标记全部会换成单一新行字符(#xA)。
(3)属性值交给xml应用措施之前,xml阐明器也应该先对属性值做类型化的操纵。这是因为差异的操纵系统每一行文字列的末了字符有差异的组合,譬喻,windows系统会由返回字符呵新行字符构成末了标记,而Unix系统则仅由新行字符组
成末了标记。xml阐明器在读取xml文件之后,便先行将所有末了标记换成单一新行字符,不只统一了差异系统间差异末了标记设计的差别性,同时也简化了后续xml应用措施的的操纵难度。这样一个处理惩罚进程称为“类型化(Normalization)”。
a,每一文字列的末了标记都要类型化成单一的新行字符(#xA)。
b,任何一个空格符(#x20、#xD、#xA、#x9)都应换成一个空格字符(#x20)。
c,属性值中若含有字参码,则应替换成该参考字符,譬喻,
会换成新行字符(#xA)。
d,属性值若含有实体参考,则应以其替换文字替换。
e,除此之外,任何字符都应直接放入类型化属性值中。
f,最后,假如属性范例不是CDATA,则xml阐明器应该再进一步把属性值前后的空格字符序列删除,并且属性值中间若有空格序列,也应该替换成单一空格字符。
xslt处理惩罚器把xml输入文件和xsl模板文件的布局树建好之后,会现把组件中相邻的文字结点归并成单一的文字结点,然后再把一些文字结点抽掉。然而,假如文字结点切合下列条件之一,就会被保存下来:
-----------------------
(1)文字结点的父组件是空格保存组件名称集(Set Of Whitespace-preserving Element Names)中的一员。
(2)文字结点中至少有一个非空格符。
(3)文字结点的某个祖先组件中有xml:space属性,其值为preserve,并且较近的祖先组件中没有其他xml:space属性值为default。除此之外的文字结点逗会被抽掉。
对xsl模板而言,所谓的空格保存组件名称集只有一个xsl:text组件可用。xsl模板文件的空格结点城市被删除,可是,假如空格结点呈此刻xsl:text组件中就会被保存下来。