1er avril 2022 — Encodage et corpus annotés en histoire des idées linguistiques

Séance scientifique du laboratoire HTL (UMR 7597)
organisée par Alejandro Díaz Villalba et Muriel Jorge

Vendredi 1er avril 2022 de 14h à 17h

Université de Paris
Bâtiment Olympe de Gouges, salle 203
Place Paul Ricoeur
75013 Paris

Présentation

L’utilisation du langage XML et le suivi des recommandations de la TEI posent des problèmes spécifiques à qui souhaite encoder des textes métalinguistiques. On est en effet confronté à des difficultés liées à l’usage de mots en emploi autonymique, à la terminologie, ainsi qu’à des pratiques de description, de catégorisation et d’analyse du matériau linguistique qui diffèrent d’une tradition d’idées sur le langage et les langues à l’autre (latine, sanskrite, arabe…), voire d’un auteur à l’autre. La constitution de corpus et leur exploitation sont donc des activités essentielles en histoire des idées linguistiques. Bien que ce travail ne s’effectue pas toujours sur des corpus informatisés annotés et structurés, plusieurs projets de ce type ont déjà été réalisés au sein de l’équipe HTL. Cette séance scientifique vise à mettre en perspective les pratiques d’annotation mises en œuvre dans des projets en cours au laboratoire HTL et de les faire dialoguer avec des approches développées pour d’autres corpus en Humanités numériques.

Programme

14h00Introduction Alejandro Díaz Villalba et Muriel Jorge
14h15La TEI entre interdisciplinarité, interopérabilité et recherche scientifique spécialisée : un équilibre possible ? Elena Pierazzo (Université de Tours, CESR)
15h00Brève présentation concernant quelques projets au long cours autour des collections de manuscrits tamouls de la Bibliothèque Nationale de France (BnF) Jean-Luc Chevillard (CNRS, HTL), avec Margherita Trento (EHESS/CNRS, CEIAS)
15h45Pause
16h00Constitution de corpus médiévaux annotés en XML-TEI pour l’histoire des théories linguistiques Susanne Mpouli (Université Paris Cité, Centre des Humanités numériques) et Franck Cinato (CNRS, HTL) 

Résumés

La TEI entre interdisciplinarité, interopérabilité et recherche scientifique spécialisée : un équilibre possible ?
Elena Pierazzo
Le système de balisage proposé par la TEI représente depuis plus de 30 ans un standard de facto pour l’annotation des textes dans toutes les disciplines et les domaines des Sciences Humaines et Sociales. Néanmoins cette hégémonie culturelle fait face à plusieurs tensions, et notamment entre le besoin de se conformer aux bonnes pratiques qui favorisent l’échange et la durabilité de la donnée, et le besoin d’être fidèle à ses objectifs de recherche, parfois très spécifiques et pointus. Et si la TEI offre des systèmes de personnalisation, adapter le schéma a des conséquences en termes d’interopérabilité qui ne sont pas claires. En effet, la TEI a été accusée d’être trop souple et adaptable aux besoins particuliers pour être définie comme un standard ou même comme une bonne pratique.
L’intervention explorera cette problématique à travers des exemples pratiques, et proposera plusieurs pistes pour agencer la TEI dans des cas spécifiques.

Brève présentation concernant quelques projets au long cours autour des collections de manuscrits tamouls de la Bibliothèque Nationale de France (BnF)
Jean-Luc Chevillard et Margherita Trento
Le projet franco-allemand TST (ANR-DFG), qui est l’un des prolongements du projet ERC NETamil, vise à cataloguer le fonds tamoul de la BnF, qui comporte environ 800 manuscrits. En outre, dans certains cas, une prolongation de l’acte de catalogage d’un manuscrit consiste à faire une transcription fidèle intégrale, qui devient alors une édition diplomatique numérique [sur la base d’un manuscrit unique] et pourra aussi être utilisé dans le cadre d’éditions critiques, en cours ou à venir. La présentation combinera les aspects scientifiques et techniques présents dans plusieurs de ces projets d’édition: un lexique Tamoul-Portugais, un sous-recueil de 25 hymnes śivaïtes tirés du Tēvāram, un traité de métrique tamoul et son commentaire, des Thesauri tamouls traditionnels ainsi qu’un Thésaurus préparé par un jésuite italien du XVIIIe siècle, le Caturakarāti.

Constitution de corpus médiévaux annotés en XML-TEI pour l’histoire des théories linguistique
Franck Cinato et Suzanne Mpouli
Cette présentation s’appuie principalement sur deux projets d’annotation en XML-TEI de glossaires du haut Moyen Âge: l’édition critique du Liber Glossarum et la reconstitution de l’histoire des glossaires latins à travers une édition enrichie du Thesaurus Glossarum Emendatarum de Goetz ainsi que de 17 glossaires. En confrontant la perspective du chercheur et de l’ingénieur, nous allons aborder les différents problèmes que ce type de matériaux textuels posent tant au niveau de la création de corpus (récolte et encodage de données) que de son exploitation par des méthodes traditionnelles ou automatiques. Nous nous attacherons tout particulièrement aux choix qui ont été faits au regard, d’une part, de la question de recherche au cœur de chacun de ces projets et, d’autre part, de la communauté visée. 

1er avril 2022 — Encodage et corpus annotés en histoire des idées linguistiques
Retour en haut
CONTACT
MENTIONS LEGALES
PLAN DU SITE
logo-cnrs
logo-université-paris
Université Sorbonne Nouvelle