Fiche technique : substrat XML

Afin de bien comprendre la structure de l'EAD, et de progresser dans son utilisation, il est nécessaire de posséder certaines connaissances en XML.

Le XML (Extensible Markup Language) est un langage de balisage étendu, développé par le World Wide Web Consortium (W3C). Un document XML est un ensemble d'informations textuelles structurées dans un modèle arborescent d'éléments délimités par des balises.

Les éléments définissent un contenu sémantique. Ils peuvent contenir d’autres éléments (il est ainsi possible de regrouper des informations de même nature) et/ou des données textuelles. Des attributs, accompagnés d'une valeur permettent de qualifier les éléments. Les attributs permettent ainsi de donner des informations sur la nature de l'élément et facilitent l'exploitation informatique.

La structure du contenu de l'élément, et encore davantage la valeur des attributs, sont soumises à certaines règles :

  • Certains caractères ont une valeur spécifique en XML : il s'agit des chevrons ouvrants (<) et fermants (>), de l'apostrophe et du signe " ainsi que de l'éperluette, qui permet de rendre ces caractères réservés dans la syntaxe XML ou des entités.
  • Les commentaires (non pris en compte par le parseur XML) sont inscrits à l'intérieur d'une séquence <!-- -->

Le XML est un langage aux règles strictes. Par exemple, à l'inverse de ce qui était admis dans les versions initiales de HTML, tout balise ouvrante doit être accompagnée d'une balise fermante. Un document XML bien formé doit se conformer à des exigences précises :

  • présence d'un en-tête XML
  • emboîtage correct des éléments
  • absence de répétition d'un attribut au sein d'un même élément

Exemples de document XML bien formé :

<?xml version="1.0" encoding="utf-8"?>
<notice>
    <cote type="actuelle">Mss. M. 1001-2800</cote>
    <cote type="ancienne">Mont. 1-1864</cote>
    <intitule>Fonds Montesquieu</intitule>
    <date>1201-1900</date>
    <descriptionPhysique>
        <importanceMaterielle>1800 manuscrits</importanceMaterielle>
    </descriptionPhysique>
    <producteur>
        <nomPersonne normal="Montesquieu, Charles-Louis de Secondat (1689-1755 ; baron de La Brède et de)">Montesquieu </nomPersonne>
    </producteur>
    <!-- Ceci est un commentaire, qui n'est pas parsé par le validateur -->
    <acquisition>Achats, dons, legs et dation</acquisition>
    <acces>Consultation dans la salle de la Réserve uniquement</acces>
    <note> Fonds consacré à Montesquieu : livres et manuscrits du philosophe, archives de la seigneurie de La Brède dont les plus anciennes pièces remontent au XIIIe siècle.</note>
</notice>

</ hr>

Un document XML « valide » est un document XML bien formé, qui de surcroît est conforme à une DTD ou à un schéma. Cette validité est vérifiable grâce à un outil logiciel appelé parseur, présent dans les navigateurs Internet et dans les éditeurs XML.

Une DTD (Définition de type de document) fournit à la fois le vocabulaire et la syntaxe nécessaires pour exploiter les potentialités de l'XML :

  • définition des éléments
  • définition de la hiérarchie de ces éléments, de leur ordre, et de leur caractère répétable, obligatoire ou facultatif.
  • définition des attributs pouvant être associés à ces éléments
  • définition de valeurs permises pour certains attributs

Les DTD laissent de plus en plus la place à des schémas, qui sont eux aussi des langages de descriptions de documents XML, et qui présentent des avantages supplémentaires :

  • définition d'un type de données (texte, nombre entier, date) pour un contenu d'élément ou une valeur d'attribut
  • gestion d'espaces de noms, permettant d'intégrer des éléments provenant de DTD ou schémas multiples
  • autodocumentation (le schéma peut être utilisé pour générer sa propre documentation).

Les schémas sont définis selon deux modalités principales :

  • XML Schema (extension .xsd) : recommandation du W3C
  • RelaxNG (extension .rng) : alternative plus simple à XML Schema.

Le schéma EAD 2002, créé en 2007 à partir de la DTD EAD 2002, existe dans ces deux formats.


Autres points notables :

  • Le XML n'est lié ni à une plate-forme, ni à un système d’exploitation, ni à une famille de logiciels, ce qui facilite l’échange des données entre systèmes d'informations hétérogènes.
  • La consultation des données se fait sous une forme statique (après transformation en HTML ou PDF) ou sous une forme dynamique (utilisation d'un moteur de recherche adapté)
  • Les données XML sont par défaut en Unicode, système d'encodage très complet des caractères dans de multiples systèmes d'écriture
  • Le XML permet de créer très facilement des liens vers des documents externes, en particulier vers des ressources en ligne
  • De manière implicite en XML les données présentes à un noeud donné sont réputées hériter des propriétés des données présentes aux noeuds supérieurs de l'arborescence. Voir la fiche technique Indexation.
  • Afin d'exploiter au mieux la structuration arborescente de l'XML et la valeur sémantique des éléments, il est de bon usage de faire de l'XML assez hiérarchisé (plutôt que de l'XML rédigé en grands blocs d'informations, alors répartis dans des éléments à la valeur sémantique plus faible).

Une présentation détaillée du XML se trouve dans le document ci-dessous.

Il existe aussi un j.e-cours proposé par l'ABES.

Fichier attaché Taille
Icône PDF xml_-_elements_de_base.pdf 1.86 Mo

 

Print Friendly, PDF & Email