Главная » Java, Web, XML » Схема XML

0

В мае 2001 года консорциум W3C (WWW Consortium) рекомендовал описывать структуру документов XML на языке описания схем XSD. На этом языке записываются схемы XML (XML Schema), описывающие элементы документов

сама записывается как документ XML. Его элементы называют компонентами (components), чтобы отличить их от элементов описываемого документа XML. Корневой компонент схемы носит имя <schema>. Компоненты схемы описывают элементы XML и определяют различные типы элементов. Рекомендация схемы XML, которую можно посмотреть по адресу http://www.w3.org/xml/schema/, перечисляет 13 типов компонентов, но наиболее важны компоненты, определяющие простые и сложные типы элементов, сами элементы и их атрибуты.

Язык XSD различает простые и сложные элементы XML. Простыми (simple) элементами описываемого документа XML считаются элементы, не содержащие атрибутов и вложенных элементов. Соответственно, сложные (complex) элементы содержат атрибуты и/или вложенные элементы. описывает простые типы — типы простых элементов, и сложные типы — типы сложных элементов.

Язык описания схем содержит много встроенных простых типов. Они перечислены в следующем разделе.

Встроенные простые типыXSD

Встроенные типы языка описания схем XSD позволяют записывать двоичные и десятичные целые числа, вещественные числа, дату и время, строки символов, логические значения, адреса URI. Рассмотрим их по порядку.

Вещественные числа

Вещественные числа в языке XSD разделены на три типа: decimal, float и double.

Тип decimal составляют вещественные числа, записанные с фиксированной точкой: 123.45, —0.1234567689345 и так далее. Фактически хранятся два целых числа: мантисса и порядок. Спецификация языка XSD не ограничивает количество цифр в мантиссе, но требует, чтобы можно было записать не менее 18 цифр. Этот тип легко реализуется классом

входящем в стандарт Java API (Application Programming Interface, интерфейс программирования приложений) [9].

Типы float и double соответствуют стандарту IEEE754—85 и одноименным типам Java [9]. Они записываются с фиксированной или с плавающей десятичной

Целые числа

Основной целый тип integer понимается как подтип типа decimal, содержащий числа с нулевым порядком. Это целые числа с любым количеством десятичных цифр: -34567, 123456789012345 и так далее. Этот тип легко реализуется классом       [9].

Типы long, int, short и byte полностью соответствуют одноименным типам Java. Они понимаются как подтипы типа integer, типы более коротких чисел считаются подтипами более длинных чисел: тип byte — это подтип типа short, оба они подтипы типа int, и так далее.

Типы nonPositivelnteger И negativelnteger — ТТГ>ИИ1 1Ы ТИПЯ integer — составлены из неположительных и отрицательных чисел соответственно с любым количеством цифр.

Типы nonNegativelnteger И positivelnteger — ГСДШПЫ типа integer — составлены из неотрицательных и положительных чисел соответственно с любым количеством цифр.

У типа nonNegativelnteger есть подтипы беззнаковых целых чисел: unsignedLong, unsignedlnt, unsignedShort И unsignedByte.

Строки символов

Основной символьный тип string описывает произвольную строку символов Unicode. Его можно реализовать классом java.lang.string.

Тип                           — подтип типа string — это строки, не содержащие

символы перевода строки          возврата каретки и символы горизон

тальной табуляции

В строках типа token — подтипа типа normaiizedstring — нет, кроме того, начальных и завершающих пробелов и нет нескольких подряд идущих пробелов.

В типе token выделены три подтипа. Подтип language определен для записи названия языка согласно RFC 1766, например, ru, en, de, fr. Подтип nmtoken используется только в атрибутах для записи их перечисляемых значений. Подтип name составляют имена XML — последовательности букв, цифр, дефисов, точек, двоеточий, знаков подчеркивания, начинающиеся с буквы (кроме зарезервированной последовательности букв X, х, М, m, L, 1 в любом сочетании регистров) или знака подчеркивания. Двоеточие в значениях типа name используется для выделения префикса пространства имен.

Из типа name выделен подтип NCName (Non-Colonized Name) имен, не содержащих двоеточия, в котором, в свою очередь, определены три подтипа id, entity, idref, описывающие идентификаторы XML, сущности и перекрестные

Дата и время

Тип duration описывает промежуток времени, например, запись p1y2m3dt10h30m45s означает один год (iy), два месяца (2м), три дня (3d), десять часов (юн), тридцать минут (зом) и сорок пять секунд (4 5s). Запись может быть сокращенной, например, Р12Ом означает 120 месяцев, а Т120М — 120 минут.

ТИП dateTime содержит дату И время В формате CCYY-MM-DDThh:mm: ss, Например, 2003-04-25Т09:30:05. Остальные типы выделяют какую-либо часть даты или времени.

Тип time содержит время В обычном формате hh:mm:ss.

Тип date содержит дату в формате ccyy-mm-dd.

Тип gYearMonth выделяет год и месяц в формате CCYY-MM.

Тип               содержит месяц и день месяца в формате -MM-DD.

Тип gYear означает год в формате CCYY, ТИП gMonth — месяц в формате – мм-, тип gDay — день месяца в формате -DD.

Двоичные типы

Двоичные целые числа записываются либо в 1б-ричной форме без всяких ДОПОЯНИТеЛЬНЫХ СИМВОЛОВ! 0B2F, 356С0А И ТЯК далее, ЭТО ТИП hexBinary, либо В кодировке Base64 [10], ЭТО — ТИП base64Binary.

Прочие встроенные простые типы

Еще три встроенных простых типа описывают значения, часто используемые в документах XML.

Адреса URI относятся к типу anyURI.

Расширенное имя тега или атрибута (qualified name, то есть, имя вместе с префиксом, отделенным от имени двоеточием, — это тип QName.

Элемент NOTATION описания DTD выделен как отдельный простой тип схемы XML. Его используют для записи математических, химических и других символов, нот, азбуки Бройля и прочих обозначений.

Определение простых типов

В схемах XML с помощью встроенных типов можно тремя способами определить новые типы простых элементов. Они вводятся как сужение (restriction) встроенного или ранее определенного простого типа, список (list) или объединение (union) простых типов.

Простой тип определяется компонентом схемы <simpleType>, имеющим вид

<xsd:simpleType паше="имя типа">Определение Tmia</xsd:simpleType>

Сужение

Сужение простого типа определяется компонентом <restriction>, в котором атрибут base указывает сужаемый простой тип, а в теле задаются ограничения, выделяющие определяемый простой тип. Например, почтовый индекс zip можно определить как шесть арабских цифр следующим образом:

<xsd:simpleType name="zip">

<xsd:restriction base="xsd:string">

<xsd:pattemvalue="[0-9] {6}" />

</xsd:restriction» </xsd:simpleType>

Можно дать другое определение простого типа zip как целого положительного числа, находящегося в диапазоне от 100000 до 999999:

<xsd: simpleType name="zip">

<xsd:restriction base="xsd:positiveInteger"> <xsd:minlnclusive value="100000" /> <xsd:maxlnclusive value="999999" /> </xsd:restriction»

</xsd:simpleType>

Теги <pattern>, <maxinclusive> и другие теги, задающие ограничения, называются фасетками (facets). Вот их список:

•         <maxExclusive> — наибольшее значение, оно уже не входит в определяемый тип;

•            cmaxinclusive> — наибольшее значение определяемого типа;

•          <minExclusive> — наименьшее значение, уже не входящее в определяемый тип;

•            <mininclusive> — наименьшее значение определяемого типа;

•            <totalDigits> — общее количество цифр в определяемом числовом ти

пе — сужении ТИПа decimal;

•            <f ractionDigits> — количество цифр в дробной части числа;

•            <iength> —длина значений определяемого типа;

?           <maxLength> — наибольшая длина значений определяемого типа;

?           <minLength> — наименьшая длина значений определяемого типа;

?           <enumeration> — одно из перечисляемых значений;

?           <pattern> — регулярное выражение [8];

?         <whitespace> — применяется при сужении типа string и определяет способ преобразования пробельных символов Лп’, Лг’, ‘Xt’Атрибут value этого тега принимает одно из трех значений:

?         preserve — не убирать пробельные символы,

?         replace — заменить пробельные символы пробелами,

?         collapse — после замены пробельных символов пробелами убрать начальные и конечные пробелы, а из нескольких подряд идущих пробелов оставить только один.

В тегах-фасетках можно записывать следующие атрибуты, называемые базисными фасетками (fandamental facets):

?         ordered — задает упорядоченность определяемого типа, принимает одно из трех значений:

•false — тип неупорядочен,

?         partial — тип частично упорядочен,

?         total — тип полностью упорядочен;

?         bounded — задает ограниченность или неограниченность типа значениями true ИЛИ false;

?         cardinality — задает конечность или бесконечность типа значениями finite ИЛИ countably infinite;

?         numeric — показывает, числовой этот тип или нет, значениями true или false.

Как видно из приведенных выше и ниже примеров, в одном сужении может быть несколько ограничений-фасеток. При этом фасетки <pattern> и <enumeration> задают независимые друг от друга ограничения, их можно мысленно объединить союзом "или". Остальные фасетки задают общие, совместно накладываемые ограничения, их можно мысленно объединить союзом "и".

Список

Простой тип-список — это тип элементов, в теле которых записывается, через пробел, несколько значений одного и того же простого типа. Например, в документе XML может встретиться такой элемент, содержащий список целых чисел:

<days>21 34 55 4 6</days>

Список определяется компонентом <list>, в котором атрибутом itemType указывается тип элементов определяемого списка. Тип элементов списка можно определить и в теле элемента <list>. Например, показанный выше элемент документа XML <days> можно определить в схеме так:

<xsd:element name="days" type="listOfInteger" />

а использованный при его определении тип listofinteger задать как список не более чем из пяти целых чисел следующим образом:

<xsd:simpleType name="listOfInteger"> <xsd:restriction>

<xsd:simpleType>

<xsd:list itemType="xsd: integer" /> </xsd:simpleType>

<xsd:maxLength value=" 5" /> </xsd:restriction» </xsd:simpleType>

При определении списка можно применять фасетки <length>, <minLength>, <maxLength>, <enumeration>, <pattern>. В приведенном выше примере список — тело элемента <days> — не может содержать более пяти чисел.

Объединение

Простой тип-объединение определяется компонентом <union>, в котором атрибутом memberTypes можно указать имена объединяемых типов. Например:

<xsd:union memberTypes="xsd: string xsd: integer listOf Integer" />

Другой способ — записать в теле компонента <union> определения простых типов, входящих в объединение. Например:

<xsd:attribute name="size"> <xsd:s mpleType>

<xsd:union>

<xsd:simpleType>

<xsd:restriction base="xsd:positiveInteger"> <xsd:minlnclusive value="8"/> <xsd:maxlnclusive value="72"/> </xsd:restriction>

</xsd:simpleType>

<xsd:simpleType>

<xsd:restriction base="xsd:NMTOKEN"> <xsd:enumeration value="small"/> <xsd:enumeration value="medium"/> <xsd:enumeration value="large"/> </xsd:restriction»

</xsd:simpleType>

</xsd:union> </xsd:simpleType>

</xsd:attribute»

После этого атрибут size можно использовать, например, так: <font size=’large’>Глава K/font> <font size=’12,>npocToii TeKCT</font>

Литература:

Хабибуллин И. Ш. Разработка Web-служб средствами Java. — СПб.: БХВ-Петербург, 2003. — 400 с: ил.

По теме:

  • Комментарии