Responsables du séminaire : Franck Cinato et Aimée Lahaussois
Argumentaire
L’acte d’annoter les textes, quels qu’ils soient, apparaît comme une activité multimillénaire dans la plupart des aires linguistiques (voir Cinato – Lahaussois – Whitman, 2023). Annoter, c’est évidement ajouter des informations, dont la nature extrêmement variable dépend des contextes culturels, des époques, des objectifs. Or, il ne s’agit pas d’un acte gratuit ni anodin, car l’effort qu’il demande répond à des besoins et crée par le fait même de nouvelles connaissances.
Par certains aspects, la pratique de l’annotation est à la racine même de la création d’un niveau métalinguistique. Nous observons ainsi que dans le processus de grammatisation des langues vernaculaires européennes, les premières attestations des terminologies métalinguistiques exprimées dans des langues autres que latine ou grecque se développent sous forme d’annotations manuscrites au sein de corpus de gloses.
Dans le cadre de ce séminaire, nous distinguons les notions de gloses (qui peuvent être orales ou appartenir au discours/texte, et ainsi donc ne pas seulement exister sous forme d’annotation) et d’annotation, en ce sens que l’une comme l’autre ne participe pas nécessairement à une relation de parfaite réciprocité : une glose peut être annotée, mais pas uniquement, et une annotation n’est pas toujours une glose.
Ainsi, si les premières annotations métalinguistiques sont probablement médiévales, la pratique n’a jamais cessé jusqu’à nos jours. Dans une perspective épistémologique, ce séminaire visera à documenter la question de l’annotation à travers des séries de faits s’étalant du Moyen Âge à nos jours, avec une emphase sur les périodes de la Renaissance et l’époque moderne, identifiées comme des périodes charnières.
Dans le contexte actuel où l’annotation de corpus occupe un grand nombre de linguistes, descriptivistes ou TAL-istes, apporter une perspective historique sur cette pratique paraît essentiel pour situer les horizons de réflexion et identifier dans quelle mesure les pratiques sont marquées par une continuité.
Nous nous intéresserons dans un premier temps à l’annotation interlinéaire, et chercherons à établir une chronologie de son évolution afin d’identifier la continuité des étapes la liant à l’annotation linguistique telle que pratiquée actuellement en typologie et en linguistique descriptive. C’est donc dans le contexte de matériaux écrits accompagnés de gloses ou de traductions interlinéaires, reflétant une confrontation entre cultures et langues différentes, que nous souhaitons mener cette réflexion. Il nous semble particulièrement important d’avoir une couverture géographique large, afin d’identifier comment ces pratiques ont pu différer dans différentes aires culturelles à travers le temps. Ainsi, nous inviterons des experts travaillant sur des horizons très différents : entre autres, nous entendrons des spécialistes de la documentation linguistique en Amérique du Nord, avant et après Boas au début du 20eme s. ; des traditions d’annotation de textes en Asie du Sud, du Sud-Est, et de l’Est jusqu’au 19e siècle ; de Leibniz, puisque ce dernier préconisait l’annotation interlinéaire des données sur les langues exotiques.
Dans le cadre de cette thématique large, nous souhaitons soulever des questionnements divers selon les perspectives adoptées, qu’elles soient d’ordre théorique, diachronique, épistémologique, anthropologique, etc. Quelles constantes peut-on dégager de pratiques similaires mais cependant indépendantes ? Peut-on observer une influence de l’imprimerie sur la pratique de l’annotation ? Les modèles linguistiques modernes ont-ils transformé notablement la pratique ou se sont-ils satisfait des usages établis ? Telles sont quelques-unes des questions que nous nous poserons. D’autres thématiques seront éventuellement abordées par la suite, comme par exemple, la ponctuation et le découpage de l’énoncé comme pratiques « annotatives », ou l’annotation marginale dans sa dimension intertextuelle.
Bibliographie
Programme des intervenants
Toutes les séances auront lieu dans la salle 533 du bâtiment Olympe de Gouges, de 14h à 16h.
Un lien zoom peut être demandé aux organisateurs du séminaire (Aimée Lahaussois et Franck Cinato).
2024-2025
Vendredi 22 novembre 2024
Jean-Baptiste Lamontre : titre et résumé à venir
2023-2024
Vendredi 10 Novembre 2023
Justin Smith : “G. W. Leibniz and the Linguistic Desiderata of the Kamchatka Expedition (1724-1741)”
When did the practice develop of sending standardized word-lists with travelers to help them compile the basic vocabularies of the indigenous peoples they encountered during their journeys? Any comprehensive history of this practice would include a chapter on the significant contributions of the German philosopher, linguist, and polymath Gottfried Wilhelm Leibniz (1646-1716). In the book I am currently writing, Leibniz, Russia, and the Making of a Scientific Empire (Princeton University Press, 2025), I explore the philosopher’s influence on the scientific expedition conducted by the Academy of Sciences of Saint Petersburg through northern Asia in the 1730s. The goal of this expedition was to comprehensively describe the geographical, botanical, and linguistic diversity of the Russian Empire.In this presentation, I will focus on the significance of the Kamchatka Expedition for the development of comparative linguistics, with a particular emphasis on the practice of collecting interlinear translations of the Pater Noster, as well as on Philip Johan von Strahlenberg’s “Tabula Polyglotta Harmoniae Linguarum” from 1730. This work, citing Leibniz as its primary influence, schematically compares the basic vocabularies of several North Asian languages.
Vendredi 19 janvier 2024
Guillaume Wisniewski (LLF) et Séverine Guillaume (LACITO) : « Étudier des corpus de langues rares avec des modèles neuronaux — implications pour l’annotation »
La révolution de l’apprentissage profond, en plus d’avoir permis le développement d’applications grand public dont la visibilité et l’impact sont indéniables, offre de nombreuses nouvelles possibilités pour la documentation, l’analyse et la modélisation des langues. En effet, ces applications reposent en grande partie sur des réseaux de neurones qui ont appris, sans aucune intervention humaine, à construire des représentations de la langue (aussi bien parlée qu’écrite) encodant sous forme de vecteurs de nombreuses propriétés linguistiques, facilitant ainsi son analyse et son traitement automatique.
Ces *modèles de langue neuronaux* peuvent notamment être utilisés pour réduire l’effort d’annotation des linguistes en facilitant le développement de systèmes capables d’annoter automatiquement des données. Dans une première partie de notre présentation, nous expliquerons comment, grâce à l’un de ces modèles, nous avons pu développer un système de transcriptions phonémiques à partir de très peu de données annotées pour des langues rares et en cours de documentation. Ces travaux font partie d’un effort général s’appuyant sur les développements récents du TAL pour outiller les linguistes de terrain. Nous discuterons de la manière dont ces modèles peuvent fournir la brique de base de ces outils et des enjeux de ces développements.
Les modèles de langues neuronaux peuvent également fournir un autre type d’aide aux linguistes en extrayant automatiquement des informations typologiques (inventaire de phonèmes, indices de complexité phonologique et morphosyntaxique, …) d’enregistrements audio. Nous présenterons, dans la seconde partie de notre présentation, nos premiers travaux dans cette direction en montrant comment il est possible de détecter des langues « similaires » au plan phonético-phonologique. Nous discuterons des difficultés à interpréter ce type de mesures en particulier par rapport aux métadonnées habituellement collectées dans les travaux de linguistique de terrain.
Vendredi 1er mars 2024
So Miyagawa (Tokyo, National Institute for Japanese Language and Linguistics, Research Department, Faculty Member) : “Annotating Coptic in the Digital Age: Integrating Traditional Scholarship with AI and Digital Tools”
The digitization of Coptic manuscripts represents a significant advancement in the preservation and analysis of these ancient texts. This presentation outlines the process and benefits of transcribing Coptic manuscripts and typeset editions into digital formats using Optical Character Recognition (OCR) and Handwritten Text Recognition (HTR) technologies. By converting these historical documents into machine-readable texts, researchers can more easily engage in the textual analysis and interpretation of Coptic literature.
Building on this digitization, the project advances by philologically and linguistically annotating these texts within the framework of the Text Encoding Initiative (TEI) P5 Guidelines, which is pivotal for the representation of complex textual phenomena. We then move to a web-based visualization of these annotated texts, which promotes interactive engagement. This interface is further enhanced by the integration of high-resolution manuscript images obtained through the International Image Interoperability Framework (IIIF) manifests from various institutions. The result is a digital online edition that juxtaposes the original manuscript images with the annotated text, augmented by freely accessible TEI/XML files.
The incorporation of Generative AI, such as ChatGPT, propels this digital humanities endeavor forward by providing robust support for the annotation process. ChatGPT’s capabilities in language understanding can assist in the automatic generation of annotations, offering suggestions for interpretive notes and helping to identify linguistic patterns within the Coptic corpus. The integration of AI with traditional scholarly methods signifies a transformative step in Coptic studies, fostering a more interactive and accessible field of research in the digital age.
In this presentation, we will discuss the methodologies, tools, and potential of digital annotations in Coptic studies, showcasing how technology is revolutionizing our approach to historical texts. We will also examine the role of AI in supporting and driving this digital transition, highlighting the innovative ways in which AI can contribute to the field of digital humanities.
Vendredi 29 mars 2024
Giovanni Grandi (PhD Università degli Studi di Parma; independant researcher) : “Marginalia in the Renaissance Manuscript Tradition of Catullus“
The manuscript tradition of Catullus springs from a single lost archetype, and all the surviving complete copies, roughly 130, date from the Renaissance onwards. These two factors make it one of the most unique classical transmission cases.
While the manuscripts have been systematically studied, the marginal notes that can be found in many manuscripts are often overlooked. They consist of variant readings, interpretations, and exegetical comments that often rely on other classical authors.
During this seminar, I will present a survey of the marginal notes I studied in my research, focusing on three main topics:
- The reading and annotating practices of famous early humanists, like Angelo Poliziano, and more obscure ones, like Francesco Buzzacarini;
- How marginal notes seem to be copied over different manuscripts, sometimes with independent traditions, some others almost “in bundle” with the text;
- How they may suggest the existence of lost manuscripts.
Vendredi 26 avril 2024
Ernesto Stagni (Università degli studi di Pisa, Dipartimento di Filologia Letteratura e Linguistica, cours d’Histoire de la tradition manuscrite) : “Gloses, annotations et commentaires de Gui de Grâne : un magister artium du XIIIe siècle et ses livres”
Guido de Grana: un nom qui n’a attiré l’attention des chercheurs qu’assez récemment, tout comme les annotations très abondantes qu’il avait déposées avant 1284 en marge d’une quinzaine de manuscrits, et surtout d’une copie du lexique latin de Papias (Berne, Burgerbibliothek 276). Ewald Könsgen publia en 1990 de riches extraits du commentaire de Gui aux Gesta militum d’un poète presque contemporain, Hugues de Mâcon, et c’est en 1995 que j’ai découvert l’identité entre l’auteur de ce commentaire et l’annotateur qui avait couvert son Papias de milliers de gloses et citations de textes latins (j’en ai dénombré plus ou moins trois cent) de toute époque et de toute nature, parfois très rares, voire même aujourd’hui perdus. Je vais explorer ses intérêts, ses pratiques d’annotation, de lecture et de critique des textes, ses idées et ses connaissances sur les langues et sur les rapports qu’elles pouvaient entretenir les unes avec les autres.
Je vais aussi essayer de situer ce personnage dans un plus large milieu, centré surtout autour du haut clergé séculier parisien et du Nord de la France, en relation directe avec la cour royale et la papauté. On va enfin dessiner le profil d’un érudit parfaitement au courant des nouveautés, telles que les traductions d’Aristote ou les gloses d’Accurse au droit romain, mais capable d’exploiter l’héritage des traditions textuelles carolingiennes ou du XIIIe siècle d’une façon qui pourra paraître désormais anachronique à l’ère des modistes et de la grammatica speculativa.
Vendredi 31 mai 2024
Maxime Maleux (KU Leuven) : “How to read the Hebrew Bible? Student notes and marginalia from the sixteenth-century Leuven Collegium Trilingue”
In 1518, the Hebrew language was introduced at the Leuven Trilingual College, along with the other two classical languages, Greek and Latin. At the beginning of the sixteenth century, Hebrew posed a challenge for European students due to its writing system, pronunciation, and grammar. On the other hand, Biblical Hebrew texts were well-known to them in the Latin translation of Jerome. Early Hebraists had devised tools to overcome these difficulties, such as grammars, text editions, and translations. However, these typically provide limited insight into the actual teaching methods of professors and the learning process of students. Fortunately, three sets of annotations dating from these pioneering years at the Trilingue allow us to closely determine the pedagogical reality of these early Hebrew classes. In my talk, I will focus on the various strategies employed to gloss difficult words and passages in the Biblical Hebrew text, as evidenced by the student notes. Additionally, I will also elaborate on how these notes can tell us more about the Christian and Jewish sources used by the professor to elucidate problematic Biblical Hebrew words.
2022-2023
- Vendredi 3 février 2023 : Marieken Teeuwen (Uni Leiden) “Glossing Between the Lines”
Mariken Teeuwen, Senior researcher at Huygens Institute (Royal Netherlands Academy of Arts and Sciences, Amsterdam), and Professor by special appointment “Culture of Writing in the Middle Ages”, Institute for History, Leiden University
Different areas of the medieval book were used for adding paratext to the text in the writing area of the page: flyleaves, margins, inserted leaves and, of course, the space between the lines. The practice of making interlinear glosses was one particular technique in a set of tools to annotate the book. If we reflect on this, we can ask a number of questions: what makes a scribe decide to write a gloss in interlinear space, and not in the margin, on a flyleaf or on an inserted leaf? Is it a matter of copying the distribution from one exemplar to the next? Is it simply the distinction between ‘short’ and ‘longer’ glosses? Is there an implicit typology that decides where the material goes, such as grammatical versus explanatory or digressing glosses? Does the distribution of material over different ‘free’ spaces in a manuscript reflect some kind of hierarchy of existing paratext versus new material from a reader, created on the fly?
In order to get a handle on these questions, I will compare four copies of Martianus Capella’s De nuptiis Philologiae et Mercurii, all from the ninth century. This is a text with multiple settled commentary traditions, already in the ninth century, which was copied with remarkable frequency precisely in this period. The text seemed to me, therefore, a good yardstick to use: with it we can assess what the distribution of paratext over the ‘empty’ spaces of each manuscript might tell us about the practices of learning and the processes of text transmission.
- Vendredi 17 mars 2023 : Otto Zwartjes “Interlinear glosses in Renaissance grammar: with particular focus on Missionary linguistic tools in Latin America during the Colonial Period”
Vendredi 14 avril 2023 : Chloé Laplantine et Julie Marsault “Les dispositifs de gloses interlinéaires des textes autochtones d’Amérique du Nord aux 19e et 20e siècles”
- Vendredi 26 mai 2023 : Peera Panarut (Uni Hamburg) “Tua kasian: A Specific Handwritten Type for Interlinear Glossings in Siamese (Thai) Manuscripts”
Among different types of Thai handwritings, e.g. neat type (tua bancong) and scribbled type (tua wat), there is also a handwritten type specifically used for interlinear glossings called tua kasian, which can be considered a miniature writing due to its smaller size. Tua kasian writings appear both in Thai and Khòm scripts, the two most common scripts in traditional Siamese manuscript culture. This type of handwritings has been found from Siamese manuscripts dated between the late 18th and the early 20th centuries. Tua kasian in Thai can be occasionally found in paper manuscripts, annotating secular texts between the lines. On the other hand, tua kasian in Khòm, also known as khòm kasian, is often found in palm-leaf manuscripts, annotating and explaining Pali texts. With the help of these interlinear miniature writings of tua kasian it is possible to trace the method of reading, learning and interpreting texts in the traditional period. The paper, therefore, focuses on the form and function of tua kasian in Thai and Khòm scripts from selected examples of paper and palm-leaf manuscripts, in order to propose its significance in the traditional system of Siamese education, as well as in the Siamese manuscript culture.