Quelles procédures d’indexation des ego-documents ?
L’indexation des ego-documents est élaborée pour une recherche d’information automatisée. Les procédures d’indexation sont ainsi déterminées par le service à rendre aux usagers, qu’ils soient chercheurs ou non spécialistes. Comment répondre à des questions telles :
* « Quels sont les journaux japonais écrits entre les IXème et XIème siècles ou ceux des voyageurs en Europe de l’ére Meiji dont les traductions sont disponibles en français ? »
* « Quels sont les ego-documents traitant du mariage en 1850 et qui sont écrits par des femmes de nationalité française ? »
* « Quels sont les carnets de laboratoire manuscrits ou publiés dans les disciplines scientifiques ? »
* « Quelles sont les autobiographies chinoises traduites en français au XXème siècle ? »
Le catalogue descriptif des ego-documents doit pouvoir fournir toutes les occurrences permettant de répondre à ces interrogations lors de la connexion à Ipséité. C’est pourquoi, l’identification et le classement de ces unités descriptives sont essentiels afin de pouvoir y accéder rapidement une fois leur saisie effectuée. L’indexation des ego-documents est aussi primordiale parce qu’elle manifeste immédiatement l’intérêt documentaire et littéraire du contenu de ces textes. Il s’agit en premier lieu de déterminer les procédures qui permettent de passer d’un document non décrit à un ensemble structuré de données qui constitueront dès lors autant de points d’accès aux ego-documents. L’indexation doit aussi fournir, de façon la plus objective possible, une description complète qui préserve la spécificité et la diversité des ego-documents. Doit-elle alors être élaborée sur les techniques de traitement du langage naturel et/ou sur les théories de la représentation de la personne dans les textes ?
La procédure d’indexation des ego-documents peut se décrire comme un système qui comporte l’ajout de descripteurs à un texte original en fonction de divers paramètres : les formes de l’ego-document, y compris la description matérielle, les datations (dates de rédaction, périodes couvertes, publication, …), le contexte historique, la profession de l’auteur, etc. Ces descripteurs obéissent aussi à des procédures pour repérer des mots-clés qui permettent une syntaxe documentaire spécifique aux ego-documents à partir de la nature et de la forme des textes à indexer 7 :
Structure
* textes sans structure particulière, souvent propre au journal
* textes peu structurés (grandes divisions, sous titres, dates « incertaines »)
* textes fortement structurés (comprenant des entrées constantes telles que le lieu, la datation, l’heure, …)
* textes composites (dont les sections offrent des niveaux différents de structuration avec des entrées variables)
Volume
De quelques pages à plusieurs milliers de pages que l’on peut diviser en trois groupes :
* texte bref (une page, jusqu’à 35 lignes environ, manuscrite ou imprimée)
* texte court (de 4 ou 5 pages, manuscrites ou imprimées)
* texte long (au-delà de 5 pages, manuscrites ou imprimées)
Domaine de référence
* domaine identifié et circonscrit (historique, sociologique, scientifique et/ou technique, spécialisé, littéraire, etc.)
* domaine identifié et large ou composite (scientifique et/ou technique, à un niveau plus général)
* domaine encyclopédique ou mal circonscrit (corpus littéraire, corpus générique, etc.)
* domaine très spécialisé qui peut relier un ensemble de textes concernant des domaines connexes
Un ego-document peut cependant intégrer tout ce qui concerne une période historique datée précisément, mais aussi un ensemble de témoignages sur un milieu particulier ou un lieu aujourd’hui disparu. L’indexeur d’ego-documents, chercheur, amateur ou néophyte, doit donc obéir à des instructions en fonction du niveau et de l’étendue de l’analyse de l’ego-document. Le niveau de l’analyse est fixé sur l’accès aux contenus du texte (compréhension et interprétation), ou sur le seul plan de l’expression (extraction directe de termes ou locutions trouvées dans le texte), alors que l’analyse extensive implique la lecture de la totalité du texte et celle d’un sous-ensemble (paratextes et/ou métatextes).
En fonction de cette grille d’analyse, l’indexation des ego-documents peut s’effectuer à un de ces quatre niveaux :
NIVEAU 1 : L’indexation simple
A ce niveau, on souhaite simplement identifier l’ego-document en référence à d’autres textes indexés, sans s’assurer du caractère significatif de l’indexation. Certains termes peuvent être exclus de la procédure d’indexation et l’accès au sens reste non pertinent car il n’y a pas de raisonnement et de concertation entre les mots-clés. Une bibliographie signalétique, comme celle du Cercle de la librairie pour Electre, propose cette indexation pouvant s’appliquer à des corpus de textes de toutes natures8.
NIVEAU 2 : L’indexation descriptive
A ce deuxième niveau, l’indexation prend en compte la forme du texte et le contexte d’écriture. Le choix des descripteurs est ici soumis aux résultats de lectures d’évaluation qui peuvent être de diverses natures : fréquence de l’apparition d’un élément dans le texte, structure globale, … Mais il n’y a pas de recours au sens à ce niveau comme pour l’indexation rapide après la seule lecture de certaines parties du document, sans qu’un contrôle sur une liste d’autorité n’ait été effectué. La plupart des catalogues des bibliothèques publiques expérimente ainsi diverses méthodes d’indexation qui correspondent aux requêtes pour un catalogue général.
NIVEAU 3 : L’indexation raisonnée
Elle désigne un raisonnement lexical sur le sens et le contenu de l’ego-document qui induit une réflexion sur les synonymies partielles ou totales et sur les polysémies ou homonymies. L’ambiguïté de la syntaxe d’indexation est traitée en procédant à des choix, en particulier l’exclusion et le renvoi vers d’autres occurrences. La nécessité d’indexer aussi la forme des textes apparaît avec un thesaurus général, comme le fait la Bibliothèque Nationale de France avec RAMEAU (Répertoire d’autorité-matière encyclopédique et alphabétique unifié). L’analyse des textes est cependant peu approfondie, mais la multiplication des descripteurs permet un repérage plus facile dans l’ensemble du dépôt légal. C’est ce niveau là qu’Ipséité doit viser dans un premier temps, à l’instar du Système Universitaire d’Information (Sudoc) <http://corail.sudoc.abes.fr> qui pour les thèses répertoriées reprend le résumé en français et/ou en anglais .
NIVEAU 4 : L’indexation interprétative
Pour dépasser le niveau de la simple dénomination et de l’énonciation, il faut s’appuyer sur un ensemble de théories et de connaissances linguistiques issues de recherches récentes, ainsi que sur des analyses sur l’ensemble du contexte établies par un spécialiste du domaine et des sujets couverts par l’ego-document. Afin de rendre compte des effets de sens les plus complexes, une compréhension en profondeur du texte est nécessaire pour obtenir une représentation des contenus autorisant des interprétations. C’est l’objectif le plus élevé à atteindre où Ipséité devient un véritable système d’information, métadonnée capable de relier les ego-documents aux thèmes anthropologiques universels, passerelles transgénériques, etc., à partir de travaux de recherche publiés ou présentés lors de colloques. La lecture d’un article critique sur un ego-document, aussi signalé dans la notice descriptive de catalogage, constituerait un « résumé » et inciterait à l’indexer sous cette approche afin de pouvoir remonter de la critique, qui devient alors une sorte de résumé théorique, au texte intégral. Ces recherches sont encore partielles, mais les perspectives théoriques ouvertes par les nouvelles technologies (compréhension des ego-documents, études des phénomènes historiques et des réseaux relationnels, etc.) sont élargies comme en a fait état le colloque Les ego-documents à l’heure de l’électronique <http://egodoc.revues.org/octobre2002/>.
En se fixant l’objectif d’une indexation raisonnée, les ego-documents peuvent ainsi bénéficier de la pratique du Répertoire d’autorité-matière encyclopédique et alphabétique unifié (RAMEAU)9 développé par la Bibliothèque Nationale de France, mais avec un traitement spécifique. Les termes choisis pour RAMEAU ne conviennent en effet pas toujours pour les ego-documents. Par exemple, pour indexer une étude sur le genre autobiographique, le terme « Autobiographie » en tête de vedette sujet est utilisé au singulier, suivi éventuellement d’un adjectif de nationalité ou d’une période en subdivision :
Autobiographie
Autobiographie française ** XIXe siècle
Le pluriel « Autobiographies » sert par contre à indexer des anthologies d’autobiographies. La tête de vedette « Roman autobiographique » est utilisée pour indexer des textes qui sont des romans autobiographiques ; suivi de la subdivision « Histoire et critique », elle sert à indexer les études sur le roman autobiographique. Le terme « Biographie » est par contre employé comme subdivision de forme à la place de « Mémoires », terme rejeté.
Les Mémoires d’une jeune fille rangée seront ainsi indexés :
Beauvoir, Simone de (1908-1986) ** Biographie
ou encore :
Beauvoir, Simone de ** Enfance et jeunesse
ou ne seront pas indexés du tout !
Les Mémoires d’Outre-tombe seront indexés à :
Chateaubriand, Fr. R. (dates de vie) ** Biographie
Avec RAMEAU, il n’est donc pas possible de distinguer une biographie d’une œuvre autobiographique ; le terme « Autobiographie » est en effet exclu pour indexer une œuvre autobiographique, car il sert pour une étude sur le genre autobiographique.
Pour une étude portant sur les techniques de narration à la première personne, on fait usage de l’expression « Récits à la première personne ». La tête de vedette sujet « Journaux intimes », suivie ou pas d’un adjectif de nationalité, sert à indexer une étude générale sur ce genre, englobant plusieurs auteurs :
Journaux intimes français
Dans le catalogue BN-Opale plus <http://www.bnf.fr>, on trouve d’autres vedettes matières relatives au traitement de la personne dans la littérature :
Identité, psychologie dans la littérature
Mémorialistes
Moi dans la littérature
Narcissisme dans la littérature
Certains termes RAMEAU sont aussi employés uniquement derrière un nom d’auteur : « Journal intime » ne s’emploie qu’en subdivision, c’est-à-dire derrière un nom d’auteur. Mais « Journal intime » peut être subdivision de sujet aussi bien que de forme, c’est à dire qu’il peut aussi indexer l’œuvre elle-même ou une étude portant sur l’œuvre. En général, il désigne un écrivain spécifique :
Amiel, Henri Frédéric (1821-1881) ** Journal intime
Rappelons aussi qu’avec le pluriel « Journaux intimes » le genre littéraire est désigné.
D’autres termes ou locutions « Manuscrits, fac-similés » et « Correspondance » sont également employés en subdivision, tout comme « Notes, esquisses » qui a été préféré au terme « Carnets », terme rejeté désignant à la fois un genre et un support10. « Enfance et jeunesse » s’emploie également derrière un nom d’écrivain, mais la locution peut être utilisée pour une œuvre autobiographique aussi bien que biographique, donc écrite par un autre. Il ne faut pas oublier enfin la locution « Récits personnels » qui n’est pas employée derrière un nom d’écrivain mais derrière une catégorie de personnes, ou un événement historique, afin d’exprimer l’idée de témoignage personnel :
Voyageurs français ** Récits personnels
Première guerre mondiale ** Récits personnels polonais
Avec des descriptions minimales obligatoires qui concernent la description du sujet du document, l’appartenance générique, le support et la forme de l’ego-document, l’indexation d’Ipséité doit aussi suivre les préconisations d’un Répertoire d’Indexation Sujets des Ego-documents (RISE)11 qui peut être calqué sur RAMEAU, mais avec quelques remaniements pour qu’il soit utilisable en histoire sociale, politique, littéraire, etc., et permettre ainsi la création d’un thesaurus original. Le thesaurus des ego-documents doit comporter une liste d’autorités, mais figurant d’abord un « langage documentaire fondé sur une structuration hiérarchisée d’un ou plusieurs domaines de la connaissance12 ». Tout comme pour RAMEAU, la liste d’autorité sujets du Répertoire d’Indexation Sujets des Ego-documents n’est pas constituée a priori mais au fur et à mesure des besoins d’indexation et évolue sur la base des propositions faites par le réseau de ses utilisateurs. La structure des notices du RISE intégrera donc obligatoirement les descriptions suivantes : des sujets (noms communs, noms propres), des subdivisions (géographique, chronologique, générique, formes) et des indications de termes exclus gérés par les liens hypertextes et des renvois à d’autres notices13.
Grille simplifiée d’indexation Des Egodocuments
* NOMS COMMUNS
o Mot ou locution
Le sujet peut-être un mot ou une locution qui peut se suffire à lui-même ou être précisé :
Adolescence
Ateliers d’écriture
remarque : les locutions sujets comportant la conjonction de coordination « et » désignent la mise en relation de deux notions, le plus souvent lorsque l’emploi est courant et figé :
Enfance et jeunesse
o Traduction
Le choix des sujets en français doit permettre une traduction en plusieurs langues en vue d’un thesaurus multilingue :
Autofiction = Selfiction plutôt que Roman autobiographique
remarque : le terme autofiction fait aussi partie de la subdivision générique
o Singulier ou pluriel
Les sujets sont au singulier ou au pluriel :
Femmes / Féminisme
o Polysémie et homonymes
Le sujet choisi doit éviter toute ambiguïté polysémique ; les homonymes seront distingués :
Aveu (droit) / Aveu (littérature)
o Qualificatif
Il n’y pas d’utilisation de qualificatif lorsque l’expression est suffisamment explicite :
Confessions religieuses
Le qualificatif mis entre parenthèses permet d’identifier :
+ un domaine : Moi (philosophie)
+ une branche de la discipline : Moi (pédopsychiatrie)
+ une catégorie d’objets
+ enlever l’homonymie : Critique (génétique)
+ l’utilisation du singulier ou du pluriel
o Exclusion de termes
Les sujets exclus permettent :
+ l’enlèvement de la synonymie :
Journaux intimes (exclu)
Journaux personnels (retenu)
+ le traitement de sujets particuliers : abréviations, acronymes, périodes historiques, …
+ le traitement des inversions et de constructions syntaxiques
+ le traitement de termes spécifiques et antonymes
+ le traitement de formes anciennes
o Les renvois indiquent :
+ les équivalences : Lettres voir Correspondances
* NOMS PROPRES
Il s’agit à la fois de l’auteur et du sujet de l’ego- document. Les autres noms propres sont des noms de personnes, des collectivités, des noms géographiques.
o Les noms de personnes et les noms de collectivités :
Léautaud, Paul (1872-1956)
Association pour l’autobiographie et le patrimoine autobiographique
o Les noms géographiques
Algérie – Histoire – 1954-1962 (Guerre d’Algérie) – Journaux de guerre
o Titres de publications en série
La Faute à Rousseau (périodique ; France ; n° 0 juin 1992)
o Titres d’œuvres :
Journal de l’année de la peste
* SUBDIVISION GÉOGRAPHIQUE
Byron, George Gordon (baron ; 1788-1824) – Voyages – Alpes (Suisse)
* SUBDIVISION CHRONOLOGIQUE
Lorsque la période couvre deux siècles, on attribue deux indexations sujet identiques :
Corse (France) – Histoire – 1347-1768 (Domination génoise)
Corse (France) – Histoire – 18e siècle
* SUBDIVISION GENERIQUE, FORME ET SUPPORT (extraits)
GENRES FORMES SUPPORTS
Autobiographie Autographe Agenda
Carnets Biobliographie Bloc-note
Chroniques Catalogue Cahier
Correspondance Dessin Calepin
Entretiens Enquête Carnet
Journal personnel Étude de cas Cédérom
Journal de voyage Exposition Fac-similé
Livre de bord Extraits Manuscrit
Livre de comptes Manuscrit Registre
Livre de raison Monographie Répertoire
Mémento Projet Sites
Mémoires Supplément Tapuscrit