Lire en Français.
Read in English.
Ce dépôt héberge le mémoire, l'article scientifique et les programmes éventuellement développés.
Ce document répond à la problématique : quel est le potientiel de l'intelligence artificielle dans la linguistique historique ?
Il suivra le plan suivant :
- La linguistique historique et l’intelligence artificielle
- Les contributions de l’IA dans la linguistique historique
- Utilisation de l'IA pour la reconstruction d'une proto-langue
Ce papier s'intéresse à la reconstruction d'une proto-langue par approche neuronale, en particulier, la reconstruction du proto-latin à partir de ses langues descendantes (français, espagnol, portugais, italien, roumain). Ici, l'impact des propriétés du modèle de langue utile dans une approche non supervisée est étudié.
Dans ce dossier, toutes les implémentations Python abordées dans les documents écrits précédents sont jointes. (L'objectif était de mettre en pratique l'expérience établie dans l'article scientifique.)
Il se découpe en deux sous-dossiers : Fine-tuned et Unsupervised_reconstruction.
Tous les entrainements ont été effectués à partir de la base de données postée par Shauli-Ravfogel.
Dans ce sous-dossier, deux modèles pré-entrainés (mBART et mT5) ont été affinés pour la tâche de reconstruction.
Pour pouvoir les utiliser, il est nécessaire d'installer les librairies Python : torch
et transformers
.
Ce sous-dossier contient notre implémentation du papier "Neural Unsupervised Reconstruction of Protolanguage Word Forms" de Andre He, Nicholas Tomlin, Dan Klein, ainsi que celle de nos expérimentations. La librairie Python torch
a également été utilisée.
This repository hosts the dissertation, the scientific article and any programmes developed.
This document answers the following question: What is the potential of artificial intelligence in historical linguistics?
It will follow the following plan:
- Historical linguistics and artificial intelligence.
- AI's contributions to historical linguistics.
- The use of AI for the reconstruction of a proto-language.
This paper focuses on the reconstruction of a proto-language using a neural approach, in particular, the reconstruction of proto-Latin from its descendant languages (French, Spanish, Portuguese, Italian, Romanian). Here, the impact of the properties of the language model useful in an unsupervised approach is studied.
In this folder, all the Python implementations discussed in the previous written documents are attached. (The aim was to put into practice the experiment established in the scientific article.)
It is divided into two sub-folders: Fine-tuned and Unsupervised_reconstruction.
All training was carried out using the database posted by Shauli-Ravfogel.
In this sub-folder, two pre-trained models (mBART and mT5) were fine-tuned for the reconstruction task.
To use them, install the Python libraries: torch
and transformers
.
This sub-folder contains our implementation of the paper "Neural Unsupervised Reconstruction of Protolanguage Word Forms" by Andre He, Nicholas Tomlin, Dan Klein, as well as that of our experiments. The torch
Python library was also used.