Skip to content
Bertrand Caron edited this page Apr 21, 2021 · 28 revisions

PDF/A Statut

Description

PDF/A est une série de déclinaisons standardisées du format de publication PDF destiné à préserver la mise en page du document. Cette série de formats est utilisée pour conserver et échanger des documents numériques car les restrictions qu'elle impose au format PDF visent à le rendre autonome (CPO-AUT). Son développeur, l'entreprise Adobe, bien que disposant de brevets portant sur le format, accorde une licence gratuite pour la visualisation et l'édition de ces fichiers par des logiciels tiers (CPO-LIB).

PDF/A, dans ses versions 1 et 2 (la version 3, en incluant la possibilité d'embarquer n'importe quel type de contenu, comporte des risques supplémentaires), réduit sensiblement les risques portant sur le contenu des fichiers qui s'y conforment. Néanmoins, dans la mesure où il restreint fortement les contenus et les fonctionnalités des documents bureautiques, une migration vers ce format présente des risques de perte d'information qui ne peuvent être limités que par une maîtrise des formats source et cible, et un contrôle rigoureux des propriétés signifiantes après conversion.

Pour une vue d'ensemble du format et de ses usages, on pourra consulter le document : PDF/A l’essentiel 2.0 : PDF pour l’archivage à long terme. Une introduction technique en anglais est également disponible : A Technical Introduction to PDF/A, PDFlib, 2017.

Sociabilité

La série de formats PDF/A est très largement utilisée et recommandée par de nombreuses organisations officielles et institutions de conservation aux États-Unis et en Europe. Les implémentations par des outils très largement répandus tels Microsoft Office, LibreOffice ou InDesign contribuent à la diffusion du format auprès du grand public.

Relations à d'autres formats

PDF/A est une stricte restriction du format PDF. Il hérite de ce fait des complexités et ambiguïtés du format PDF, bien que celles-ci aient été limitées dans la version 2.0 de PDF, dont dérive PDF/A-4.

Bien que non directement lié, le format PDF/UA-1 (pour Universal Accessibility), normalisé comme ISO 14289-1:2014, impose et précise l'usage des balises PDF (tags) qui encodent la structure sémantique du PDF. De ce fait, la conformité à ce standard est recommandée par Adobe aux créateurs de PDF/A de variante « a ».

Versions

Date Version PDF/A Version PDF de base Norme ISO
2005 PDF/A-1 PDF 1.4 ISO 19005-1
2011 PDF/A-2 PDF 1.7 (ISO 32000-1) ISO 19005-2
2012 PDF/A-3 PDF 1.7 (ISO 32000-1) ISO 19005-3
À venir PDF/A-4 PDF 2.0 (ISO 32000-2) ISO 19005-4 en cours

Contenu

Les principales restrictions introduites par PDF/A sont les suivantes.

  • Il ne peut contenir que du texte ou des images à condition qu'elles ne soient pas compressées avec l'algorithme LZW.
  • Les formats audiovisuels ainsi que les interactions (Javascript, etc.) sont par conséquent interdits.
  • Les polices doivent être incluses dans le fichier (on relève de ce fait des risques potentiels si les polices en question sont protégées par le droit d'auteur).
  • L'inclusion des profils colorimétriques des images (généralement sous forme de profil ICC ou de spécification CIE Lab) et la présence de métadonnées au format XMP sont obligatoires.
  • Le chiffrement est interdit.

Les contenus et fonctionnalités suivants sont introduits dans la version PDF/A-2 (ils étaient interdits dans la version PDF/A-1) :

  • format d'image JPEG 2000 (introduit en PDF 1.5) ;
  • gestion de la transparence ;
  • introduction de spécifications sur la signature électronique (déjà possible pour PDF 1.4 et donc PDF/A-1, mais sans précision sur sa forme) selon le format PAdES ;
  • possibilité d'inclure des fichiers PDF/A-1 ou PDF/A-2, pour permettre la création d'un unique fichier PDF/A-2 issu de plusieurs d'entre eux.

Apport de la version PDF/A-3 :

  • possibilité d'inclure n'importe quel fichier associé au document ou à une de ses pages, à condition de fournir un type MIME et la relation entre le contenu associé et le contenu principal selon une liste fermée (source, data, alternative, supplement, unspecified). Les logiciels de lecture de PDF/A ne sont tenus que de permettre l'extraction du contenu attaché. L'objectif initial était de pouvoir ajouter le fichier d'origine, avant migration vers PDF/A, mais, cette liberté ayant été employée à des usages divers, elle est aujourd'hui considérée comme faisant porter un risque de préservation supplémentaire. Elle est donc généralement déconseillée par les spécialistes de la préservation numérique.

Du fait du caractère restrictif du PDF/A, le choix de la version à utiliser est directement lié au contenu que l'on cherche à porter ; les versions successives de PDF/A ne remplacent en aucune façon leur prédécesseur.

Organisme de maintenance et documents de référence

Les formats PDF/A sont maintenus par Adobe et normalisés par l'ISO, voir le paragraphe Versions.

Requête sur les variantes du format et leur norme ISO associée sur Wikidata.

La British Library a réalisé une évaluation de ce format pour la préservation à long terme, accessible sur https://wiki.dpconline.org/images/2/22/PDFA_Assessment_v1.0.pdf.

Identifiants

Registre PDF/A PDF/A-1 PDF/A-2 PDF/A-3
Bibliothèque du Congrès fdd000318 fdd000125 fdd000319 fdd000360
Wikidata Q1547957 Q26543628 (b)
Q26541013 (a)
Q26546575 (b)
Q26547266 (u)
Q26545877 (a)
Q26548590 (b)
Q26549229 (u)
Q26547917 (a)
PRONOM fmt/354 (b)
fmt/95 (a)
fmt/477 (b)
fmt/478 (u)
fmt/476 (a)
fmt/480 (b)
fmt/481 (u)
fmt/479 (a)

Les variantes sont les suivantes :

  • « b », pour « basic », correspond aux exigences minimales pour la restitution à long terme de l'apparence visuelle de la mise en page.
  • « u », pour « unicode », ajoute à la variante « b » l'exigence de disposer pour tout le texte d'un équivalent en Unicode pour permettre la recherche et l'extraction du texte.
  • « a », pour « accessible », ajoute des exigences sémantiques (tags) pour documenter, comme dans un format de balisage, la nature des contenus (titres, tableaux, listes, etc.), leur organisation logique au sein du document, décrit comme une structure arborescente, et son ordre de lecture, notamment en vue de favoriser l'accessibilité.

Caractéristiques techniques

Le poids (CPO-COM) d'un fichier PDF/A peut être sensiblement plus important que celui d'un PDF en raison des contenus obligatoires (polices, profils colorimétriques) ou des fichiers embarqués.

Certaines dépendances externes (CPO-AUT) peuvent malgré tout exister dans un fichier PDF/A : liens hypertextes vers une ressource web, ou encore action GotoR (lien vers un emplacement dans un autre fichier PDF).

Métadonnées internes

La présence de métadonnées internes au format XMP, reposant sur le formalisme RDF, est obligatoire.

Outre les centaines de propriétés définies par XMP, ce format est extensible à des métadonnées déterminées par l'utilisateur, mais PDF/A impose, dans ce cas, que ces propriétés soient documentées par l'inclusion d'un schéma d'extension (XMP Extension Schema Description).

Outils connus par la BnF

Pour la production, les outils bureautiques (en particulier, Microsoft Word à partir de 2012, et LibreOffice Writer à partir de la version 6) sont en mesure de générer un PDF/A, moyennant une configuration lors de l'enregistrement.

L'outil de lecture Adobe Acrobat Reader sait détecter la présence de la déclaration du caractère 'A' du PDF (dans les métadonnées XMP), et le notifie par la présence d'une bannière. Tous les lecteurs de PDF sont en mesure de lire des fichiers PDF/A, mais certains ne traitent pas correctement ses particularités (non exploitation des profils colorimétriques, des polices embarquées ou des fichiers attachés, notamment). Il en est de même pour les outils de migration de ou vers PDF/A qui ne gèrent pas tous correctement les fonctionnalités et contenus du PDF/A (transparence, signature électronique, etc.). Une migration de masse PDF vers PDF/A est donc une opération périlleuse et requiert la plus grande prudence : une vérification après génération est fortement conseillée pour s'assurer qu'aucun élément n'a été supprimé ou mal représenté.

  • veraPDF est un outil spécialement conçu pour valider le PDF/A.
  • Le module PDF de JHOVE permet une caractérisation du format PDF et une détection du profil PDF/A.
  • Tika permet une extraction des métadonnées internes au format XMP et du contenu textuel.
Clone this wiki locally