Instructions aux auteurs

Les instructions concernant le format des présentations orales et des posters sont disponibles sur la page des informations pratiques.

Ateliers et tutoriels
lundi 27/06

La journée du lundi sera consacrée à deux ateliers se déroulant en parallèle.

Atelier : TAL et Humanités Numériques
9h00 → 18h30

Cet atelier reprend les principaux thèmes du TAL appliqués à des problématiques ou des corpus SHS.

Site web de l’atelier : projet.liris.cnrs.fr/aphns-magis/AtelierTALN2022.html

Tutoriel : Quelques étapes souvent omises dans la préparation de corpus
9h00 → 12h30

Face à un corpus dans un domaine de connaissances spécifique, certaines étapes de traitement sont souvent omises ou traitées superficiellement, nous nous proposons d’en traiter trois : l’extraction de termes liés au domaine, l’extraction d’entités nommées et la résolution d’anaphores. Ces trois étapes sont importantes pour toute tâche de traitement automatique de la langue, que ce soit de l’extraction d’information, de la compréhension de langage, du résumé automatique ou de la traduction automatique.

Site web du tutoriel : https://github.com/albeiroep/tutorial_taln2022

Atelier : DEFT (Défi Fouille de Texte)
14h00 → 18h30

Le DÉfi Fouille de Textes est une campagne d’évaluation francophone qui propose chaque année de confronter les méthodes de plusieurs équipes de recherche sur une thématique régulièrement renouvelée. Cette nouvelle édition du défi portera sur la correction automatique de copies électroniques d’étudiants.

Site web de l’atelier : deft.lisn.upsaclay.fr/2022/

Oral 1
mardi 28/06

Session animée par : Géraldine Damnati

T 1
Aurélie Névéol, Yoann Dupont, Julien Bezançon, Karën Fort
French CrowS-Pairs: Extension à une langue autre que l’anglais d’un corpus de mesure des biais sociétaux dans les modèles de langue masqués
Afin de permettre l’étude des biais en traitement automatique de la langue au delà de l’anglais américain, nous enrichissons le corpus américain CrowS-pairs de 1 677 paires de phrases en français représentant des stéréotypes portant sur dix catégories telles que le genre. 1 467 paires de phrases sont traduites à partir de CrowS-pairs et 210 sont nouvellement recueillies puis traduites en anglais. Selon le principe des paires minimales, les phrases du corpus contrastent un énoncé stéréotypé concernant un groupe défavorisé et son équivalent pour un groupe favorisé. Nous montrons que quatre modèles de langue favorisent les énoncés qui expriment des stéréotypes dans la plupart des catégories. Nous décrivons le processus de traduction et formulons des recommandations pour étendre le corpus à d’autres langues.
Attention : Cet article contient des énoncés de stéréotypes qui peuvent être choquants.
T 2
Marco Naguib, François Portet, Marco Dinarelli
Vers la compréhension automatique de la parole bout-en-bout à moindre effort
Les approches de compréhension automatique de la parole ont récemment bénéficié de l’apport de modèles préappris par autosupervision sur de gros corpus de parole. Pour le français, le projet LeBenchmark a rendu disponibles de tels modèles et a permis des évolutions impressionnantes sur plusieurs tâches dont la compréhension automatique de la parole. Ces avancées ont un coût non négligeable en ce qui concerne le temps de calcul et la consommation énergétique. Dans cet article, nous comparons plusieurs stratégies d’apprentissage visant à réduire le coût énergétique tout en conservant des performances compétitives. Les expériences sont effectuées sur le corpus MEDIA, et montrent qu’il est possible de réduire significativement le coût d’apprentissage tout en conservant des performances à l’état de l’art.
T 3
Alice Millour, Yoann Dupont, Alexane Jouglar, Karën Fort
FENEC : un corpus équilibré pour l’évaluation des entités nommées en français
Nous présentons ici FENEC (FrEnch Named-entity Evaluation Corpus), un corpus à échantillons équilibrés contenant six genres, annoté en entités nommées selon le schéma fin Quæro. Les caractéristiques de ce corpus nous permettent d’évaluer et de comparer trois outils d’annotation automatique — un à base de règles et deux à base de réseaux de neurones — en jouant sur trois dimensions : la finesse du jeu d’étiquettes, le genre des corpus, et les métriques d’évaluation.
R 1
Léo Jacqmin
« Est-ce que tu me suis ? » : une revue du suivi de l’état du dialogue
Tout en communiquant avec un utilisateur, un système de dialogue orienté tâche doit suivre les besoins de l’utilisateur à chaque étape selon l’historique de la conversation. Ce procédé appelé suivi de l’état du dialogue est primordial car il informe directement les actions du système. Cet article présente dans un premier temps la tâche du suivi de l’état du dialogue, les jeux de données disponibles et les approches modernes. Ensuite, compte tenu du nombre important de publications des dernières années, il vise à recenser les point saillants et les avancées des recherches. Bien que les approches neuronales aient permis des progrès notables, nous argumentons que certains aspects critiques liés aux systèmes de dialogue sont encore trop peu explorés. Pour motiver de futures études, plusieurs pistes de recherche sont proposées.

Oral 2
mardi 28/06

Session animée par : Caio Corro

T 4
Nicolas Zampieri, Carlos Ramisch, Irina Illina, Dominique Fohr
Identification des Expressions Polylexicales dans les Tweets
L’identification des expressions polylexicales (EP) dans les tweets est une tâche difficile en raison de la nature linguistique complexe des EP combinée à l’utilisation d’un langage non standard. Dans cet article, nous présentons cette tâche d’identification sur des données anglaises de Twitter. Nous comparons les performances de deux systèmes : un utilisant un dictionnaire et un autre des réseaux de neurones. Nous évaluons expérimentalement sept configurations d’un système état de l’art fondé sur des réseaux neuronaux récurrents utilisant des embeddings contextuels générés par BERT. Le système fondé sur les réseaux neuronaux surpasse l’approche dictionnaire, collecté automatiquement à partir des EP dans des corpus, grâce à son pouvoir de généralisation supérieur.
T 5
Delphine Battistelli, Aline Etienne, Rashedur Rahman, Charles Teissèdre, Gwénolé Lecorvé
Une chaîne de traitement pour prédire et appréhender la complexité des textes pour enfants d'un point de vue linguistique et psycho-linguistique
Nos travaux abordent la question de la mesure de la complexité d’un texte vis-à-vis d’une cible de lecteurs, les enfants en âge de lire, au travers de la mise en place d’une chaîne de traitements. Cette chaîne vise à extraire des descripteurs linguistiques, principalement issus de travaux en psycholin- guistique et de travaux sur la lisibilité, mobilisables pour appréhender la complexité d’un texte. En l’appliquant sur un corpus de textes de fiction, elle permet d’étudier des corrélations entre certains descripteurs linguistiques et les tranches d’âges associées aux textes par les éditeurs. L’analyse de ces corrélations tend à valider la pertinence de la catégorisation en âges par les éditeurs. Elle justifie ainsi la mobilisation d’un tel corpus pour entraîner à partir des âges éditeurs un modèle de prédiction de l’âge cible d’un texte.
T 6
Marie Candito
Tâches auxiliaires pour l’analyse biaffine en graphes de dépendances
L’analyseur biaffine de Dozat & Manning (2017), qui produit des arbres de dépendances syntaxiques, a été étendu avec succès aux graphes de dépendances syntaxico-sémantiques (Dozat & Manning, 2018). Ses performances sur les graphes sont étonnamment hautes étant donné que, sans la contrainte de devoir produire un arbre, les arcs pour une phrase donnée sont prédits indépendamment les uns des autres. Pour y remédier partiellement, tout en conservant la complexité O(n2) et l’architecture hautement parallélisable, nous proposons d’utiliser des tâches auxiliaires qui introduisent une forme d’interdépendance entre les arcs. Les expérimentations sur les trois jeux de données anglaises de la tâche 18 SemEval-2015 (Oepen et al., 2015), et sur des graphes syntaxiques profonds en français (Ribeyre et al., 2014) montrent une amélioration modeste mais systématique, par rapport à un système de base performant, utilisant un modèle de langue pré-entraîné. Notre méthode s’avère ainsi un moyen simple et robuste d’améliorer l’analyse vers graphes de dépendances.
T 7
Arthur Amalvy, Vincent Labatut, Richard Dufour
Remplacement de mentions pour l'adaptation d'un corpus de reconnaissance d'entités nommées à un domaine cible
La reconnaissance d’entités nommées est une tâche de traitement automatique du langage naturel bien étudiée et utile dans de nombreuses applications. Dernièrement, les modèles neuronaux permettent de la résoudre avec de très bonnes performances. Cependant, les jeux de données permettant l’entraînement et l’évaluation de ces modèles se concentrent sur un nombre restreint de domaines et types de documents (articles journalistiques, internet). Or, les performances d’un modèle entraîné sur un domaine ciblé sont en général moindres dans un autre : ceux moins couverts sont donc pénalisés. Pour tenter de remédier à ce problème, cet article propose d’utiliser une technique d’augmentation de données permettant d’adapter un corpus annoté en entités nommées d’un domaine source à un domaine cible où les types de noms rencontrés peuvent être différents. Nous l’appliquons dans le cadre de la littérature de fantasy, où nous montrons qu’elle peut apporter des gains de performance.
T 8
Alexandra Benamar, Cyril Grouin, Meryl Bothua, Anne Vilnat
Étude des stéréotypes genrés dans le théâtre français du XVIᵉ au XIXᵉ siècle à travers des plongements lexicaux
Les modèles de TAL les plus récents cherchent à capturer au mieux toutes les subtilités de la langue, ce qui implique de récupérer les stéréotypes qui y sont associés. Dans cet article, nous étudions les stéréotypes de genre qui existent dans des modèles Word2Vec. Nous avons constitué un jeu de données composé de pièces de théâtre françaises allant du XVIᵉ au XIXᵉ siècle. Nous avons choisi de travailler sur le genre théâtral car il tend à pousser à leur paroxysme certains traits de caractère représentatifs de hiérarchies sociales préexistantes. Nous présentons des expériences dans lesquelles nous parvenons à mettre en avant des stéréotypes de genre en relation avec les rôles et les émotions traditionnellement imputés aux femmes et aux hommes. De plus, nous mettons en avant une sémantique spécifique associée à des personnages féminins et masculins. Cette étude démontre l’intérêt de mettre en évidence des stéréotypes dans des corpus à l’aide de modèles contextuels « classiques ».
R 2
Anaëlle Baledent
Impact des modalités induites par les outils d'annotation manuelle : exemple de la détection des erreurs de français
Certains choix effectués lors de la construction d’une campagne d’annotation peuvent avoir des conséquences sur les annotations produites. En menant une campagne sur la détection des erreurs de français, aux paramètres maîtrisés, nous évaluons notamment l’effet de la fonctionnalité de retour arrière. Au moyen de paires d’énoncés presque identiques, nous mettons en exergue une tendance des annotateurs à tenir compte de l’un pour annoter l’autre.

Oral 3
mardi 28/06

Session animée par : Carlos Ramisch

T 9
Emanuela Boros, Jose Moreno, Antoine Doucet
L'importance des entités pour la tâche de détection d'événements en tant que système de question-réponse
Dans cet article, nous abordons un paradigme récent et peu étudié pour la tâche de détection d’événements en la présentant comme un problème de question-réponse avec possibilité de réponses multiples et le support d’entités. La tâche d’extraction des déclencheurs d’événements est ainsi transformée en une tâche d’identification des intervalles de réponse à partir d’un contexte, tout en se concentrant également sur les entités environnantes. L’architecture est basée sur un modèle de langage pré-entraîné et finement ajusté, où le contexte d’entrée est augmenté d’entités marquées à différents niveaux, de leurs positions, de leurs types et, enfin, de leurs rôles d’arguments. Nos expériences sur le corpus ACE 2005 démontrent que le modèle proposé exploite correctement les informations sur les entités dans le cadre de la détection des événements et qu’il constitue une solution viable pour cette tâche. De plus, nous démontrons que notre méthode, avec différents marqueurs d’entités, est particulièrement capable d’extraire des types d’événements non vus dans des contextes d’apprentissage en peu de coups.
T 10
Paul Lerner, Olivier Ferret, Camille Guinaudeau, Hervé Le Borgne, Romaric Besançon, Jose Moreno, Jesús Lovón-Melgarejo
Un jeu de données pour répondre à des questions visuelles à propos d’entités nommées en utilisant des bases de connaissances
Dans le contexte général des traitements multimodaux, nous nous intéressons à la tâche de réponse à des questions visuelles à propos d’entités nommées en utilisant des bases de connaissances (KVQAE). Nous mettons à disposition ViQuAE, un nouveau jeu de données de 3700 questions associées à des images, annoté à l’aide d’une méthode semi-automatique. C’est le premier jeu de données de KVQAE comprenant des types d’entités variés associé à une base de connaissances composée d’1,5 million d’articles Wikipédia, incluant textes et images. Nous proposons également un modèle de référence de KVQAE en deux étapes : recherche d’information puis extraction des réponses. Les résultats de nos expériences démontrent empiriquement la difficulté de la tâche et ouvrent la voie à une meilleure représentation multimodale des entités nommées.
T 11
Bingzhi Li, Guillaume Wisniewski, Benoît Crabbé
Les représentations distribuées sont-elles vraiment distribuées ? Observations sur la localisation de l'information syntaxique dans les tâches d'accord du verbe en français
Ce travail aborde la question de la localisation de l’information syntaxique qui est encodée dans les représentations de transformers. En considérant la tâche d’accord objet-participe passé en français, les résultats de nos sondes linguistiques montrent que les informations nécessaires pour accomplir la tâche sont encodées d’une manière locale dans les représentations de mots entre l’antécédent du pronom relatif objet et le participe passé cible. En plus, notre analyse causale montre que le modèle s’appuie essentiellement sur les éléments linguistiquement motivés (i.e. antécédent et pronom relatif) pour prédire le nombre du participe passé.
T 12
Xiaoou Wang, Olga Seminck, Pascal Amsili
Investigating associative, switchable and negatable Winograd items on renewed French data sets
Le Winograd Schema Challenge (WSC) regroupe des problèmes de résolution d’anaphore nécessitant un raisonnement sur les connaissances du monde. Cet article décrit la mise à jour des items français existants et la création de trois sous-ensembles permettant une évaluation plus robuste et plus fine du WSC en français (FWSC) : un sous-ensemble associatif (items pouvant être résolus avec de la simple co-occurrence lexicale), un sous-ensemble commutable (items où l’inversion de mots-clés inverse la réponse) et un sous-ensemble niable (items où l’application d’une négation inverse la réponse). Sur ce jeu de données, nous obtenons des performances SOTA grâce à l’utilisation de CamemBERT. Notre protocole d’évaluation montre par ailleurs que cette performance peut être expliquée par l’existence d’items associatifs et que si augmenter la taille du corpus d’entraînement améliore la capacité du modèle à traiter les items commutés, cela affecte peu la performance sur les items niés.
T 34
Antoine Chaffin, Vincent Claveau, Ewa Kijak
Décodage guidé par un discriminateur avec le Monte Carlo Tree Search pour la génération de texte contrainte
Dans cet article, nous explorons comment contrôler la génération de texte au moment du décodage pour satisfaire certaines contraintes (e.g. être non toxique, transmettre certaines émotions…), sans nécessiter de ré-entrainer le modèle de langue. Pour cela, nous formalisons la génération sous contrainte comme un processus d’exploration d’arbre guidé par un discriminateur qui indique dans quelle mesure la séquence associée respecte la contrainte. Nous proposons plusieurs méthodes originales pour explorer cet arbre de génération, notamment le Monte Carlo Tree Search (MCTS) qui fournit des garanties théoriques sur l’efficacité de la recherche. Au travers d’expériences sur 3 jeux de données et 2 langues, nous montrons que le décodage par MCTS guidé par les discriminateurs permet d’obtenir des résultats à l’état-de-l’art. Nous démontrons également que d’autres méthodes de décodage que nous proposons, basées sur le re-ordonnancement, peuvent être réellement efficaces lorsque la diversité parmi les propositions générées est encouragée.
R 3
Louis Escouflaire
Identification des indicateurs linguistiques de la subjectivité les plus efficaces pour la classification d’articles de presse en français
Les articles de presse peuvent être répartis en deux genres principaux : les genres de l’information et les genres de l’opinion. La classification automatique d’articles dans ces deux genres est une tâche qui peut être effectuée à partir de traits et mesures linguistiques également utilisées pour l’analyse de la subjectivité. Dans cet article, nous évaluons la pertinence de 30 mesures issues de travaux antérieurs pour la classification d’articles d’information et d’opinion en français. A l’aide de deux modèles de classification différents et à partir d’un échantillon de 13400 articles publiés sur le site web de la Radio-Télévision Belge Francophone (RTBF), nous avons identifié 18 mesures morphosyntaxiques, lexicosémantiques et stylométriques efficaces pour distinguer les articles plutôt factuels des articles subjectifs.

Cocktail de bienvenue
mardi 28/06, 18h30 → 20h00

Les participants à la conférence sont invités à se rendre à partir de 18 h 30 dans les jardins de l’université, où ils pourront profiter d’un apéritif accompagné d’une dégustation de vins locaux.

Oral 4
mercredi 29/06

Session animée par : Karën Fort

T 16
Cyril Grouin
Impact du français inclusif sur les outils du TAL
Le français inclusif est une variété du français standard mise en avant pour témoigner d’une conscience de genre et d’identité. Plusieurs procédés existent pour lutter contre l’utilisation générique du masculin (coordination de formes féminines et masculines, féminisation des fonctions, écriture inclusive, et neutralisation). Dans cette étude, nous nous intéressons aux performances des outils sur quelques tâches du TAL (étiquetage, lemmatisation, repérage d’entités nommées) appliqués sur des productions langagières de ce type. Les taux d’erreur sur l’étiquetage en parties du discours (TreeTagger et spaCy) augmentent de 3 à 7 points sur les portions rédigées en français inclusif par rapport au français standard, sans lemmatisation possible pour le TreeTagger. Sur le repérage d’entités nommées, les modèles sont sensibles aux contextes en français inclusif et font des prédictions erronées, avec une précision en baisse.
T 15
Adrien Bibal, Remi Cardon, David Alfter, Rodrigo Wilkens, Xiaoou Wang, Thomas François, Patrick Watrin
L'Attention est-elle de l'Explication ? Une Introduction au Débat
Nous présentons un résumé en français et un résumé en anglais de l’article « Is Attention Explanation? An Introduction to the Debate » (Bibal et al., 2022), publié dans les actes de la conférence 60th Annual Meeting of the Association for Computational Linguistics (ACL 2022).
T 14
Stephen Mutuvi, Emanuela Boros, Antoine Doucet, Adam Jatowt, Gaël Lejeune, Moses Odeo
Fine-tuning de modèles de langues pour la veille épidémiologique multilingue avec peu de ressources
Les modèles de langues pré-entraînés connaissent un très grand succès en TAL, en particulier dans les situations où l’on dispose de suffisamment de données d’entraînement. Cependant, il reste difficile d’obtenir des résultats similaires dans des environnements multilingues avec peu de données d’entraînement, en particulier dans des domaines spécialisés tels que la surveillance des épidémies. Dans cet article, nous explorons plusieurs hypothèses concernant les facteurs qui pourraient avoir une influence sur les performances d’un système d’extraction d’événements épidémiologiques dans un scénario multilingue à faibles ressources : le type de modèle pré-entraîné, la qualité du tokenizer ainsi que les caractéristiques des entités à extraire. Nous proposons une analyse exhaustive de ces facteurs et observons une corrélation importante, quoique variable ; entre ces caractéristiques et les performances observées sur la base d’une tâche de veille épidémiologique multilingue à faibles ressources. Nous proposons aussi d’adapter les modèles de langues à cette tâche en étendant le vocabulaire du tokenizer pré-entraîné avec les entités continues, qui sont des entités qui ont été divisées en plusieurs sous-mots. Suite à cette adaptation, nous observons une amélioration notable des performances pour la plupart des modèles et des langues évalués.
R 4
Boyu Niu
Étapes préparatoires pour la détection des valeurs humaines dans des commentaires du domaine de la parfumerie
La détection des valeurs humaines dans le texte est une tâche qui intéresse les industriels dans la mesure où elles complètent le profil des consommateurs. Cette détection nécessite des outils et des méthodes issues du traitement automatique des langues (TAL) et s’appuie sur un modèle psychologique. Il n’existe que très peu de travaux, alliant modèles psychologiques de valeurs humaines et extraction de leur réalisation linguistique sur les réseaux sociaux à l’aide du TAL. Dans cet article, après avoir défini le modèle des valeurs de Schwartz que nous utilisons ainsi que le corpus en cours de construction pour le domaine de la parfumerie, nous proposons quelques pistes de réflexion possibles pour la construction de technologies permettant de relier des marqueurs textuels à desvaleurs humaines.

Oral 5
mercredi 29/06

Session animée par : Natalia Grabar

T 17
Nicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol
CLISTER : Un corpus pour la similarité sémantique textuelle dans des cas cliniques en français
Le TAL repose sur la disponibilité de corpus annotés pour l’entraînement et l’évaluation de modèles. Il existe très peu de ressources pour la similarité sémantique dans le domaine clinique en français. Dans cette étude, nous proposons une définition de la similarité guidée par l’analyse clinique et l’appliquons au développement d’un nouveau corpus partagé de 1 000 paires de phrases annotées manuellement en scores de similarité. Nous évaluons ensuite le corpus par des expériences de mesure automatique de similarité. Nous montrons ainsi qu’un modèle de plongements de phrases peut capturer la similarité avec des performances à l’état de l’art sur le corpus DEFT STS (Spearman=0,8343). Nous montrons également que le contenu du corpus CLISTER est complémentaire de celui de DEFT STS.
T 18
Kim Cheng Sheang, Anaïs Koptient, Natalia Grabar, Horacio Saggion
Identification of complex words and passages in medical documents in French
Identification de mots et passages difficiles dans les documents médicaux en français.

L’objectif de la simplification automatique des textes consiste à fournir une nouvelle version de documents qui devient plus facile à comprendre pour une population donnée ou plus facile à traiter par d’autres applications du TAL. Cependant, avant d’effectuer la simplification, il est important de savoir ce qu’il faut simplifier exactement dans les documents. En effet, même dans les documents techniques et spécialisés, il n’est pas nécessaire de tout simplifier mais juste les segments qui présentent des difficultés de compréhension. Il s’agit typiquement de la tâche d’identification de mots complexes : effectuer le diagnostic de difficulté d’un document donné pour y détecter les mots et passages complexes. Nous proposons de travail sur l’identification de mots et passages complexes dans les documents biomédicaux en français.
T 19
Gabriel Shenouda, Christophe Rodrigues, Aurélien Bossard
RésumeSVD : Un outil efficace et performant pour le résumé de texte non supervisé
Cet article présente une nouvelle méthode, RésumeSVD, pour le résumé automatique extractif non supervisé. Cette méthode est fondée sur la décomposition en valeurs singulières afin de réduire la dimensionnalité des plongements de mots et de proposer une représentation de ces derniers sur un petit nombre de dimensions, chacune représentant un sujet latent. En effet, dans un contexte spécifique et restreint, de multiples dimensions des plongements de mots deviennent moins pertinentes puisqu’apprises dans des contextes plus larges. Elle utilise également le regroupement automatique de mots pour réduire la taille du vocabulaire, et est suivie d’une heuristique d’extraction de phrases. La méthode surpasse en efficacité les approches extractives les plus récentes tout en étant plus efficiente. De plus, RésumeSVD nécessite peu de ressources, en termes de données et de puissance de calcul. Elle peut donc être exécutée sur de longs documents, tels que des articles scientifiques, ainsi que sur de grands corpus à documents multiples. Notre méthode est suffisamment rapide pour être utilisée dans des systèmes de résumé en direct. Nous partageons publiquement le code source de notre approche permettant de reproduire tous nos résultats.
T 20
Melissa Ailem, Jingshu Liu, Raheel Qader
Encouraging Neural Machine Translation to Satisfy Terminology Constraints.
Contrôle de la Terminologie en Traduction Automatique Neuronale

Nous présentons une nouvelle approche permettant d’intégrer des contraintes terminologiques dans les modèles de traduction neuronale. Notre méthode agit pendant la phase d’entraînement évitant ainsi toute augmentation du temps de calcul pendant l’inférence. L’approche proposée combine trois ingrédients essentiels. Le premier consiste à augmenter les données d’apprentissage afin de spécifier les contraintes. Intuitivement, cela permet au modèle d’apprendre à copier les contraintes dans la traduction prédite. Contrairement aux travaux existants, nous utilisons une technique d’augmentation de données simplifiée, ne nécessitant pas l’utilisation de source factors. Le second ingrédient consiste à masquer le terme source des contraintes, permettant au modèle d’apprendre encore plus facilement le comportement de copie et de mieux se généraliser. Le troisième est une modification de la fonction standard d’entropie croisée afin d’encourager le modèle à attribuer des probabilités élevées aux mots appartenant aux contraintes. Les résultats montrent l’efficacité de notre approche en termes de score BLEU et en termes de pourcentage de contraintes respectées.
T 21
Nicolas Devatine, Caio Corro, François Yvon
Ré-ordonnancement via programmation dynamique pour l'adaptation cross-lingue d'un analyseur en dépendances
Cet article s’intéresse au transfert cross-lingue d’analyseurs en dépendances et étudie des méthodes pour limiter l’effet potentiellement néfaste pour le transfert de divergences entre l’ordre des mots dans les langues source et cible. Nous montrons comment apprendre et implémenter des stratégies de réordonnancement, qui, utilisées en prétraitement, permettent souvent d’améliorer les performances des analyseurs dans un scénario de transfert « zero-shot ».
R 5
Fang Zhao
Auto-correction dans un analyseur neuronal par transitions : un comportement factice ?
Cette étude explore la capacité d’auto-correction dans le cas d’un analyseur neuronal par transitions. Nous définissons un oracle dynamique pour le système étudié lui apprenant à s’auto-corriger. Les performances du modèle restent identiques à celles du modèle de base, qui ne s’auto-corrige pas. En effet, il y a à peu près autant de « corrections » justes que de fautives. Les erreurs finales commises par les deux modèles sont aussi similaires. Nous montrons néanmoins que beaucoup des corrections effectuées par le modèle avec oracle dynamique coïncident avec des cas difficiles à gérer par les analyseurs automatiques. Le problème d’apprentissage d’un comportement efficace d’auto-correction retombe dans un traitement efficace de ces cas difficiles.

Activités sportives et culturelles
mercredi 29/06, 16h00 → 19h00

Deux activités seront proposées en parallèle :

L’inscription aux activités se fera à l’accueil de la conférence le mercredi matin. Seules les personnes inscrites à ce moment-là pourront participer à la visite du Palais des Papes, le nombre de places étant limité.

Oral 6
jeudi 30/06

Session animée par : Damien Nouvel

T 22
Shu Okabe, François Yvon
Modèle-s bayés-ien-s pour la segment-ation à deux niveau-x faible-ment super-vis-é-e
La segmentation automatique en mots et en morphèmes est une étape cruciale dans le processus de documentation des langues. Dans ce travail, nous étudions plusieurs modèles bayésiens pour réaliser une segmentation conjointe des phrases à ces deux niveaux : d’une part, en introduisant un couplage déterministe entre deux modèles spécialisés pour identifier chaque type de frontières, d’autre part, en proposant une modélisation intrinsèquement hiérarchique. Un objectif important de cette étude est de comparer ces modèles dans un scénario où une supervision faible est disponible. Nos expériences portent sur deux langues et permettent de comparer dans des conditions réalistes les mérites de ces diverses modélisations.
T 23
Yizhou Xu, Kata Gábor, Leila Khouas, Frédérique Segond
Détection d'anomalies textuelles à base de l'ingénierie d'invite
La détection d’anomalies textuelles est une tâche importante de la fouille de textes. Plusieurs approches générales, visant l’identification de points de données aberrants, ont été appliqués dans ce domaine. Néanmoins, ces approches exploitent peu les nouvelles avancées du traitement automatique des langues naturelles (TALN). L’avènement des modèles de langage pré-entraînés comme BERT et GPT-2 a donné naissance à un nouveau paradigme de l’apprentissage automatique appelé ingénierie d’invite (prompt engineering) qui a montré de bonnes performances sur plusieurs tâches du TALN. Cet article présente un travail exploratoire visant à examiner la possibilité de détecter des anomalies textuelles à l’aide de l’ingénierie d’invite. Dans nos expérimentations, nous avons examiné la performance de différents modèles d’invite. Les résultats ont montré que l’ingénierie d’invite est une méthode prometteuse pour la détection d’anomalies textuelles.
T 24
Eunice Akani, Benoit Favre, Frédéric Béchet
Abstraction ou hallucination ? État des lieux et évaluation du risque pour les modèles de génération de résumés automatiques de type séquence-à-séquence
La génération de texte a récemment connu un très fort intérêt au vu des avancées notables dans le domaine des modèles de langage neuronaux. Malgré ces avancées, cette tâche reste difficile quand il s’agit d’un résumé automatique de texte par abstraction. Certains systèmes de résumés génèrent des textes qui ne sont pas forcément fidèles au document source. C’est sur cette thématique que porte notre étude. Nous présentons une typologie d’erreurs pour les résumés automatique et ainsi qu’une caractérisation du phénomène de l’abstraction pour les résumés de référence afin de mieux comprendre l’ampleur de ces différents phénomènes sur les entités nommées. Nous proposons également une mesure d’évaluation du risque d’erreur lorsqu’un système tente de faire des abstractions sur les entités nommées d’un document.
T 25
Elie Antoine, Jeremy Auguste, Frédéric Béchet, Géraldine Damnati
Génération de questions à partir d'analyse sémantique pour l'adaptation non supervisée de modèles de compréhension de documents
La génération automatique de questions à partir de textes peut permettre d’obtenir des corpus d’apprentissage pour des modèles de compréhension de documents de type question/réponse sur des textes. Si cette tâche de génération est désormais appréhendée par des modèles de type séquence-à-séquence basés sur de grands modèles de langage pré-entraînés, le choix des segments réponses à partir desquels seront générées les questions est l’un des principaux aspects différenciant les méthodes de génération de corpus de question/réponse. Nous proposons dans cette étude d’exploiter l’analyse sémantique de textes pour sélectionner des réponses plausibles et enrichir le processus de génération par des traits sémantiques génériques. Les questions générées sont évaluées dans leur capacité à être utilisées pour entraîner un modèle de question-réponse sur un nouveau corpus d’archives numérisées.
T 26
Natalia Grabar, Horacio Saggion
Evaluation of Automatic Text Simplification: Where are we now, where should we go from here
Évaluation de la simplification automatique de textes : où nous en sommes et vers où devons-nous aller.

L’objectif de la simplification automatique de textes consiste à adapter le contenu de documents afin de les rendre plus faciles à comprendre par une population donnée ou bien pour améliorer les performances d’autres tâches TAL, comme le résumé automatique ou extraction d’information. Les étapes principales de la simplification automatique de textes sont plutôt bien définies et étudiées dans les travaux existants, alors que l’évaluation de la simplification reste sous-étudiée. En effet, contrairement à d’autres tâches de TAL, comme la recherche et extraction d’information, la structuration de terminologie ou les questions-réponses, qui s’attendent à avoir des résultats factuels et consensuels, il est difficile de définir un résultat standard de la simplification. Le processus de simplification est très subjectif et souvent non consensuel parce qu’il est lourdement basé sur les connaissances propres des personnes. Ainsi, plusieurs facteurs sont impliqués dans le processus de simplification et son évaluation. Dans ce papier, nous présentons et discutons quelques uns de ces facteurs : le rôle de l’utilisateur final, les données de référence, le domaine des documents source et les mesures d’évaluation.
R 6
Cécile Macaire, Lucía Ormaechea-Grijalba, Adrien Pupier
Une chaîne de traitements pour la simplification automatique de la parole et sa traduction automatique vers des pictogrammes
La Communication Alternative et Augmentée (CAA) prend une place importante chez les personnes en situation de handicap ainsi que leurs proches à cause de la difficulté de son utilisation. Pour réduire ce poids, l’utilisation d’outils de traduction de la parole en pictogrammes est pertinente. De plus, ils peuvent être d’une grande aide pour l’accessibilité communicative dans le milieu hospitalier. Dans cet article, nous présentons un projet de recherche visant à développer un système de traduction de la parole vers des pictogrammes. Il met en jeu une chaîne de traitement comportant plusieurs axes relevant du traitement automatique des langues et de la parole, tels que la reconnaissance automatique de la parole, l’analyse syntaxique, la simplification de texte et la traduction automatique vers les pictogrammes. Nous présentons les difficultés liées à chacun de ces axes ainsi que, pour certains, les pistes de résolution.

Oral 7
jeudi 30/06

Session animée par : Benoit Favre

T 27
Loïc Fosse, Duc-Hau Nguyen, Pascale Sébillot, Guillaume Gravier
Une étude statistique des plongements dans les modèles transformers pour le français
Nous étudions les propriétés statistiques des plongements dans les modèles transformers pour le français. Nous nous appuyons sur une analyse de la variance, des similarités cosinus intra-phrase et du rang effectif des plongements aux différents niveaux d’un transformer, pour des modèles pré-entraînés et des modèles adaptés à la classification de textes. Nous montrons que les modèles FlauBERT et CamemBERT pré-entraînés ont des comportements très différents même si les deux ont une tendance à générer des représentations anisotropiques, c’est-à-dire se concentrant dans un cône au sein de l’espace des plongements, comme observé pour l’anglais. L’adaptation à la classification de textes modifie le comportement des modèles, notamment dans les dernières couches, et procure une tendance forte à l’alignement des plongements, réduisant également la dimension effective de l’espace au final. Nous mettons également en évidence un lien entre convergence des plongements au sein d’une phrase et classification de texte, lien dont la nature reste difficile à appréhender.
T 28
Olivier Ferret
Décontextualiser des plongements contextuels pour construire des thésaurus distributionnels
Même si les modèles de langue contextuels sont aujourd’hui dominants en traitement automatique des langues, les représentations qu’ils construisent ne sont pas toujours adaptées à toutes les utilisations. Dans cet article, nous proposons une nouvelle méthode pour construire des plongements statiques à partir de modèles contextuels. Cette méthode combine la généralisation et l’agrégation des représentations contextuelles. Nous l’évaluons pour un large ensemble de noms en anglais dans la perspective de la construction de thésaurus distributionnels pour l’extraction de relations de similarité sémantique. Finalement, nous montrons que les représentations ainsi construites et les plongements statiques natifs peuvent être complémentaires.
T 29
Aboubacar Tuo, Romaric Besançon, Olivier Ferret, Julien Tourille
Mieux utiliser BERT pour la détection d'évènements à partir de peu d'exemples
Les méthodes actuelles pour la détection d’évènements, qui s’appuient essentiellement sur l’apprentissage supervisé profond, s’avèrent très coûteuses en données annotées. Parmi les approches pour l’apprentissage à partir de peu de données, nous exploitons dans cet article le méta-apprentissage et l’utilisation de l’encodeur BERT pour cette tâche. Plus particulièrement, nous explorons plusieurs stratégies pour mieux exploiter les informations présentes dans les différentes couches d’un modèle BERT pré-entraîné et montrons que ces stratégies simples permettent de dépasser les résultats de l’état de l’art pour cette tâche en anglais.
T 30
Rim Abrougui, Géraldine Damnati, Johannes Heinecke, Frédéric Béchet
Étiquetage ou génération de séquences pour la compréhension automatique du langage en contexte d'interaction?
La tâche de compréhension automatique du langage en contexte d’interaction (NLU pour Natural Language Understanding) est souvent réduite à la détection d’intentions et de concepts sur des corpus mono-domaines annotés avec une seule intention par énoncé. Afin de dépasser ce paradigme, nous cherchons à aborder des référentiels plus complexes en visant des représentations sémantiques structurées au-delà du simple modèle intention/concept. Nous nous intéressons au corpus MultiWOZ, couramment utilisé pour le suivi de l’état du dialogue. Nous questionnons la projection de ces annotations sémantiques complexes pour le NLU, en comparant plusieurs approches d’étiquetage de séquence, puis en proposant un nouveau formalisme inspiré des méthodes de génération de graphe pour la modélisation sémantique AMR. Nous discutons enfin le potentiel des approches génératives.
T 31
Benjamin Muller, Antonios Anastasopoulos, Benoît Sagot, Djamé Seddah
Quand être absent de mBERT n'est que le commencement : Gérer de nouvelles langues à l’aide de modèles de langues multilingues
Transfer learning based on pretraining language models on a large amount of raw data has become a new norm to reach state-of-the-art performance in NLP. Still, it remains unclear how this approach should be applied for unseen languages that are not covered by any available large-scale multilingual language model and for which only a small amount of raw data is generally available. In this work, by comparing multilingual and monolingual models, we show that such models behave in multiple ways on unseen languages. Some languages greatly benefit from transfer learning and behave similarly to closely related high resource languages whereas others apparently do not. Focusing on the latter, we show that this failure to transfer is largely related to the impact of the script used to write such languages. We show that transliterating those languages significantly improves the potential of large-scale multilingual language models on downstream tasks. This result provides a promising direction towards making these massively multilingual models useful for a new set of unseen languages.
R 7
Hugo Ayats
Construction de Graphes de Connaissance à partir de textes avec une I.A. centrée-utilisateur
Avec l’essor du Web sémantique au cours des deux dernières décennies est apparu un besoin en outils permettant de construire des graphes de connaissances de bonne qualité. Cet article présente mon travail de thèse, qui est la conception d’une méthode explicable et centrée-utilisateur pour la production semi-automatisée de graphes de connaissances à partir de textes spécifiques à un domaine. Ce système se présente initialement comme une interface d’édition guidée de RDF. Puis, se basant sur les actions de l’utilisateur, un système de suggestion de triplets se met en place. Enfin, à travers des interactions avec l’utilisateur, le système automatise progressivement le processus. Après avoir présenté le workflow du système et détaillé les unités qui le compose — une unité de prétraitement, une unité interactive et une unité automatisée — cet article documente les aspects de ce workflow déjà implémentés, ainsi que les résultats de leur évaluation.

Dîner de gala sur le Rhône
jeudi 30/06, 20h00 → 23h00

La soirée du jeudi sera consacrée au dîner de gala de la conférence, à bord d’un bateau qui effectuera une mini-croisière sur le Rhône, offrant une vue unique sur les monuments d’Avignon et de Villeneuve-lès-Avignon.

Le départ et le retour du bateau se feront à l’embarcadère du quai de l’Oulle, accessible en quelques minutes à pied depuis le centre-ville via le passage de l’Oratoire, la porte Saint Dominique ou la porte de l’Oulle.

Afin de faciliter l’organisation de cette soirée, il sera demandé aux conférenciers de confirmer leur participation à la soirée de gala lors du retrait de leur badge à l’accueil de la conférence.

Oral 8
vendredi 01/07

Session animée par : Marie Candito

T 32
Najet Hadj Mohamed, Cherifa Ben Khelil, Agata Savary, Iskander Keskes, Jean Yves Antoine, Lamia Hadrich Belguith
Annotation d’expressions polylexicales verbales en arabe : validation d’une procédure d’annotation multilingue
Cet article décrit nos efforts pour étendre le projet PARSEME à l’arabe standard moderne. L’applicabilité du guide d’annotation de PARSEME a été testée en mesurant l’accord inter-annotateurs dès la première phase d’annotation. Un sous-ensemble de 1062 phrases du Prague Arabic Dependency Treebank (PADT) a été sélectionné et annoté indépendamment par deux locutrices natives arabes. Suite à leurs annotations, un nouveau corpus arabe avec plus de 1250 expressions polylexicales verbales (EPV) annotées a été construit.
T 33
Maëlle Brassier, Théo Azzouza, Jean-Yves Antoine, Loïc Grobol, Anaïs Lefeuvre-Halftermeyer
Évaluation comparative de systèmes neuronal et statistique pour la résolution de coréférence en langage parlé
Nous présentons OFCoRS, un système de résolution de coréférence, basé sur le français parlé et un ensemble de modèles Random Forest. L’objectif de ce papier est de comparer l’approche statistique d’OFCoRS avec l’approche neuronale du système DeCoFre. Nous soulignons particulièrement les similarités et différences entre les deux systèmes. Nous comparons ensuite leurs performances sur le corpus français ANCOR et observons que les performances d’OFCoRS s’approchent de celles de DeCoFre. Une analyse détaillée montre également que les deux systèmes affichent de faibles performances sur les coréférences indirectes, montrant ainsi qu’on ne peut pas considérer le traitement des anaphores complexes comme un problème résolu.
T 13
Antoine Chaffin, Vincent Claveau, Ewa Kijak, Sylvain Lamprier, Benjamin Piwowarski, Thomas Scialom, Jacopo Staiano
Choisir le bon co-équipier pour la génération coopérative de texte
Les modèles de langue génèrent des textes en prédisant successivement des distributions de probabi- lité pour les prochains tokens en fonction des tokens précédents. Pour générer des textes avec des propriétés souhaitées (par ex. être plus naturels, non toxiques ou avoir un style d’écriture spécifique), une solution — le décodage coopératif — consiste à utiliser un classifieur lors de la génération pour guider l’échantillonnage de la distribution du modèle de langue vers des textes ayant la propriété attendue. Dans cet article, nous examinons trois familles de discriminateurs (basés sur des transformers) pour cette tâche de décodage coopératif : les discriminateurs bidirectionnels, unidirectionnels (de gauche à droite) et génératifs. Nous évaluons leurs avantages et inconvénients, en explorant leur précision respective sur des tâches de classification, ainsi que leur impact sur la génération coopérative et leur coût de calcul, dans le cadre d’une stratégie de décodage état de l’art, basée sur une recherche arborescente de Monte-Carlo (MCTS). Nous fournissons également l’implémentation (batchée) utilisée pour nos expériences.
T 35
Iris Eshkol-Taravella, Angèle Barbedette, Xingyu Liu, Valentin-Gabriel Soumah
Classification automatique de questions spontanées vs. préparées dans des transcriptions de l'oral
Ce travail a pour objectif de développer un modèle linguistique pour classifier automatiquement des questions issues de transcriptions d’enregistrements provenant des corpus ESLO2 et ACSYNT en deux catégories "spontané" et "préparé". Avant de procéder au traitement automatique, nous proposons une liste de critères définitoires et discriminants permettant de distinguer les questions parmi d’autres énoncés. Les expériences basées sur des méthodes d’apprentissage supervisé sont réalisées selon une classification multiclasse comprenant les catégories "spontané", "préparé" et "non-question" et selon une classification binaire incluant les catégories "spontané" et "préparé" uniquement. Les meilleurs résultats pour les méthodes traditionnelles d’apprentissage automatique sont obtenus avec une régression logistique combinée aux critères linguistiques significatifs uniquement (F-score de 0.75). Pour finir, nous mettons en parallèle ces résultats avec ceux obtenus en utilisant des techniques d’apprentissage profond.
R 8
Shuai Gao
Système de traduction automatique neuronale français-mongol (Historique, mise en place et évaluations)
La traduction automatique (abrégé ci-après TA) connaît actuellement un développement rapide, pendant lequel les langues peu dotées semblent pourtant moins développées. En effet, il existe moins de recherches sur ces dernières. Notamment, aucune recherche publiée n’a été trouvée sur la paire de langues français-mongol. Cet article entame une nouvelle étape dans les recherches en TA pour cette paire de langues peu dotée. Nous décrivons l’historique de la TA et en établissons un état de l’art pour le mongol. Ensuite, nous nous employons à mettre en place notre propre système de TA à partir des outils et ressources open source. Outre l’évaluation automatique comme méthode pour apprécier sa performance, nous concevons une méthode d’évaluation humaine originale nommée « IFF » permettant de mieux connaître les forces et les faiblesses de notre système par rapport à des moteurs de traduction commerciaux.
R 9
Hee-Soo Choi
État de l'art : Liage de ressources lexicales du français
Les ressources lexicales informatisées constituent des données indispensables à l’élaboration d’outils et de méthodes répondant aux différentes tâches de Traitement Automatique des Langues (TAL). Celles-ci sont hétérogènes dans leur taille, leur construction et leur niveau de description linguistique. Cette variété ouvre la porte à un regroupement des ressources ou à des tentatives de liage. Dans cet article, nous présentons un état de l’art sur les ressources lexicales du français. Plus précisément, nous abordons les différentes caractéristiques d’une ressource lexicale, les ressources construites à partir de liage ainsi que les approches employées à cette fin.

Posters et démos
vendredi 01/07

T 36
Duc Hau Nguyen, Guillaume Gravier, Pascale Sébillot
Filtrage et régularisation pour améliorer la plausibilité des poids d'attention dans la tâche d'inférence en langue naturelle
Nous étudions la plausibilité d’un mécanisme d’attention pour une tâche d’inférence de phrases (entailment), c’est-à-dire sa capacité à fournir une explication plausible pour un humain de la relation entre deux phrases. En s’appuyant sur le corpus Explanation-Augmented Standford Natural Language Inference, il a été montré que les poids d’attention sont peu plausibles en pratique et tendent à ne pas se concentrer sur les tokens importants. Nous étudions ici différentes approches pour rendre les poids d’attention plus plausibles, en nous appuyant sur des masques issus d’une analyse morphosyntaxique ou sur une régularisation pour forcer la parcimonie. Nous montrons que ces stratégies permettent d’améliorer sensiblement la plausibilité des poids d’attention et s’avèrent plus performantes que les approches par carte de saillance.
T 37
Alban Petit, Caio Corro
Un algorithme d'analyse sémantique fondée sur les graphes via le problème de l'arborescence généralisée couvrante
Nous proposons un nouvel algorithme pour l’analyse sémantique fondée sur les graphes via le problème de l’arborescence généralisée couvrante.
T 38
Simon Gabay, Pedro Ortiz Suarez, Rachel Bawden, Alexandre Bartz, Philippe Gambette, Benoît Sagot
Le projet FREEM : ressources, outils et enjeux pour l’étude du français d’Ancien Régime
En dépit de leur qualité certaine, les ressources et outils disponibles pour l’analyse du français d’Ancien Régime ne sont plus à même de répondre aux enjeux de la recherche en linguistique et en littérature pour cette période. Après avoir précisément défini le cadre chronologique retenu, nous présentons les corpus mis à disposition et les résultats obtenus avec eux pour plusieurs tâches de TAL fondamentales à l’étude de la langue et de la littérature.
T 39
Thibault Roux, Mickael Rouvier, Jane Wottawa, Richard Dufour
Mesures linguistiques automatiques pour l'évaluation des systèmes de Reconnaissance Automatique de la Parole
L’évaluation de transcriptions issues de systèmes de Reconnaissance Automatique de la Parole (RAP) est un problème difficile et toujours ouvert, qui se résume généralement à ne considérer que le WER. Nous présentons dans cet article un ensemble de métriques, souvent utilisées dans d’autres tâches en traitement du langage naturel, que nous proposons d’appliquer en complément du WER en RAP. Nous introduisons en particulier deux mesures considérant les aspects morpho-syntaxiques et sémantiques des mots transcrits : 1) le POSER (Part-of-speech Error Rate), qui évalue les aspects grammaticaux, et 2) le EmbER (Embedding Error Rate), une mesure originale qui reprend celle du WER en apportant une pondération en fonction de la distance sémantique des mots mal transcrits. Afin de montrer les informations supplémentaires qu’elles apportent, nous proposons également une analyse qualitative décrivant l’apport au niveau linguistique de modèles de langage utilisés pour le réordonnancement d’hypothèses de transcription a posteriori.
T 40
Tiphaine Le Clercq de Lannoy, Romaric Besançon, Olivier Ferret, Julien Tourille, Frédérique Brin-Henry, Bianca Vieru
Stratégies d'adaptation pour la reconnaissance d'entités médicales en français
Dans un contexte où peu de corpus annotés pour l’extraction d’entités médicales sont disponibles, nous étudions dans cet article une approche hybride combinant utilisation de connaissances spécialisées et adaptation de modèles de langues en mettant l’accent sur l’effet du pré-entraînement d’un modèle de langue généraliste (CamemBERT) sur différents corpus. Les résultats sont obtenus sur le corpus QUAERO. Nous montrons que pré-entraîner un modèle avec un corpus spécialisé, même de taille réduite, permet d’observer une amélioration des résultats. La combinaison de plusieurs approches permet de gagner un à sept points de F1-mesure selon le corpus de test et la méthode.
T 41
Fanny Ducel, Karën Fort, Gaël Lejeune, Yves Lepage
Langues « par défaut » ? Analyse contrastive et diachronique des langues non citées dans les articles de TALN et d'ACL
Cet article étudie l’application de la #RègledeBender dans des articles de traitement automatique des langues (TAL), en prenant en compte une dimension contrastive, par l’examen des actes de deux conférences du domaine, TALN et ACL, et une dimension diachronique, en examinant ces conférences au fil du temps. Un échantillon d’articles a été annoté manuellement et deux classifieurs ont été développés afin d’annoter automatiquement les autres articles. Nous quantifions ainsi l’application de la #RègledeBender, et mettons en évidence un léger mieux en faveur de TALN sur cet aspect.
T 42
Kevin Deturck, Damien Nouvel, Namrata Patel, Frédérique Segond
Détection des influenceurs dans des médias sociaux par une approche hybride
L’influence sociale est un phénomène important dans divers domaines, tels que l’économie et la politique, qui a gagné en résonnance avec la popularité des médias sociaux, notamment les réseaux sociaux et les forums. La majorité des travaux sur ce sujet propose des approches fondées sur des théories en sciences humaines (sociologie, linguistique), et des techniques d’analyse de réseau (mesures de propagation et de centralité) ou de TAL. Dans cet article, nous présentons un modèle d’influence inspiré de travaux en psychologie sociale, sur lequel nous construisons un système combinant un module de TAL pour détecter les messages reflétant les processus d’influence, associé à une analyse par centralité de la transmission de ces messages. Nos expériences sur le forum de débats Change My View montrent que l’approche par hybridation, comparée à la centralité seule, aide à mieux détecter les influenceurs.
T 43
Arij Riabi, Syrielle Montariol, Djamé Seddah
Tâches Auxiliaires Multilingues pour le Transfert de Modèles de Détection de Discours Haineux
La tâche de détection de contenus haineux est ardue, car elle nécessite des connaissances culturelles et contextuelles approfondies ; les connaissances nécessaires varient, entre autres, selon la langue du locateur ou la cible du contenu. Or, des données annotées pour des domaines et des langues spécifiques sont souvent absentes ou limitées. C’est là que les données dans d’autres langues peuvent être exploitées ; mais du fait de ces variations, le transfert cross-lingue est souvent difficile. Dans cet article, nous mettons en évidence cette limitation pour plusieurs domaines et langues et montrons l’impact positif de l’apprentissage de tâches auxiliaires multilingues — analyse de sentiments, reconnaissance des entités nommées et tâches reposant sur des informations morpho-syntaxiques — sur le transfert cross-lingue zéro-shot des modèles de détection de discours haineux, afin de combler ce fossé culturel.
T 44
Elodie Gauthier, Papa Séga Wade, Thierry Moudenc, Patrice Collen, Emilie De Neef, Oumar Ba, Ndeye Khoyane Cama, Cheikh Ahmadou Bamba Kebe, Ndeye Aissatou Gningue, Thomas Mendo'o Aristide
Preuve de concept d'un bot vocal dialoguant en wolof
Cet article présente la preuve de concept du premier assistant vocal automatique en wolof, première langue véhiculaire parlée au Sénégal. Ce bot vocal est le résultat d’un projet de recherche collaboratif entre Orange Innovation en France, Orange Sénégal (alias Sonatel) et ADNCorp, une petite société informatique basée à Dakar, au Sénégal. Le but du bot vocal est de fournir des informations aux clients d’Orange sur le programme de fidélité Sargal d’Orange Sénégal en utilisant le moyen le plus naturel de communiquer : la parole. Le bot vocal reçoit la demande orale du client, qui est traitée par un moteur de compréhension de la parole, et répond avec des messages audio préenregistrés. Les premiers résultats de cette preuve de concept sont encourageants : nous avons obtenu un WER de 22 % pour la tâche de reconnaissance vocale et une F-mesure de 78 % pour la tâche de compréhension.
T 45
Merieme Bouhandi, Emmanuel Morin, Thierry Hamon
Adaptation au domaine de modèles de langue à l'aide de réseaux à base de graphes
Les modèles de langue prodonds encodent les propriétés linguistiques et sont utilisés comme entrée pour des modèles plus spécifiques. Utiliser leurs représentations de mots telles quelles pour des domaines peu dotés se révèle être moins efficace. De plus, ces modèles négligent souvent les informations globales sur le vocabulaire au profit d’une plus forte dépendance à l’attention. Nous considérons que ces informations influent sur les résultats des tâches en aval. Leur combinaison avec les représentations contextuelles est effectuée à l’aide de réseaux de neurones à base de graphes. Nous montrons que l’utilité de cette combinaison qui surpassent les performances de baselines.
T 46
Alexandre Arnold, Fares Ernez, Catherine Kobus, Marion-Cécile Martin
Extraction d'informations de messages aéronautiques (NOTAMs) avec des modèles de langue appris de façon auto-supervisée
Avant un vol, les pilotes de ligne doivent lire une longue liste de messages appelés NOTAM (pour NOtice To AirMen) donnant des informations sur des aléas potentiels le long du vol. Ces messages suivent une grammaire particulière, contiennent beaucoup d’acronymes et un vocabulaire spécifique aéronautique. Dans cet article, un modèle de langue de type BERT est pré-entraîné sur un grand nombre de ces messages ; il est ensuite affiné sur trois tâches : l’estimation de criticité, la reconnaissance d’entités nommées et la traduction vers un langage structuré appelé Airlang. L’apprentissage auto-supervisé, permettant de tirer parti du vaste nombre de données non annotées, est particulièrement intéressant dans le domaine aéronautique, pour lequel les annotations sont très coûteuses car nécessitant une forte expertise. Nous montrons les résultats encourageants sur les trois tâches.
T 47
Lamine Faty, Khadim Drame, Edouard Ngor Sarr, Marie Ndiaye, Yoro Dia, Ousmane Sall
COMFO : Corpus Multilingue pour la Fouille d’Opinions
L’utilisation d’algorithmes de Machine Learning (ML) en fouille d’opinions notamment ceux d’apprentissage supervisé nécessite un corpus annoté pour entrainer le modèle de classification afin de prédire des résultats proches de la réalité. Malheureusement, il n’existe pas encore de ressources pour le traitement automatique de données textuelles exprimées dans le langage urbain sénégalais. L’objectif de cet article est de construire un corpus multilingue pour la fouille d’opinions (COMFO). Le processus de constitution du corpus COMFO est composé de trois étapes à savoir la présentation de la source de données, la collecte et préparation de données, et l’annotation par approche lexicale. La particularité de COMFO réside dans l’intégration des langues étrangères (française et anglaises) et celles locales notamment le wolof urbain afin de refléter l'opinion collective des lecteurs sénégalais.
D 1
Thomas Gerald, Sofiane Ettayeb, Ha Quang Le, Anne Vilnat, Gabriel Illouz, Patrick Paroubek
Un corpus annoté pour la génération de questions et l’extraction de réponses pour l’enseignement
Dans cette démonstration, nous présenterons les travaux en cours pour l’annotation d'un nouveau corpus de questions-réponses en langue Française. Contrairement aux corpus existant comme “FQuad” ou “Piaf”, nous nous intéressons à l’annotation de questions-réponses “non factuelles”. En effet, si dans la littérature, de nombreux corpus et modèles de questions-réponses pré-entraînés sont disponibles, ceux-ci ne privilégient que rarement les annotations s’appuyant sur un schéma de raisonnement issue de l’agrégation de différentes sources ou contextes.
L’objectif du projet associé est de parvenir à la création d’un assistant virtuel pour l’éducation, ainsi des réponses explicatives, de raisonnement et/ou d'agrégation de l’information sont à privilégier. Notons enfin, que la volumétrie des données doit être conséquente, en particulier par la considération d’approches neuronales génératives ou extractives. Actuellement, nous disposons de 262 questions et réponses obtenues durant l’étape de validation de la campagne d’annotation. Une deuxième phase d’annotation avec une volumétrie plus importante débutera fin mai 2022 (environ 8000 questions).
D 2
Johanna Mayra Cordova, Yoann Dupont, Ljudmila Petkovic, James Gawley, Motasem Alrahabi, Glenn Roe
Toolbox : une chaîne de traitement de corpus pour les humanités numériques
Le projet Toolbox propose une chaîne de traitement pour la manipulation et le traitement de corpus textuels incluant la numérisation (OCR/HTR), la conversion au format TEI, la fouille de texte (reconnaissance d’entités nommées) et la visualisation de données. Les fonctionnalités sont accessibles via une interface en ligne qui sert de surcouche graphique à des scripts développés par nos soins ou s’appuyant sur des outils externes. Elles permettent d’automatiser les tâches élémentaires de traitement de corpus pour les chercheurs en humanités numériques. Cet outil est aussi destiné à être ouvert aux contributions externes.
D 3
Guillaume Grosjean, Anna Pappa, Baptiste Rozière, Tristan Cazenave
Dialogue avec Molière
À l’occasion du quatre-centième anniversaire de la naissance de Molière (1622-1673), nous présentons un agent conversationnel qui parle comme un personnage du théâtre de Molière. Le chatbot a été entraîné avec un modèle GPT adapté (Radford et al., 2018), sur un dataset composé des œuvres de Molière. Le modèle génératif respecte la langue et le style des personnages de Molière lorsqu’il donne la réplique de l’agent. Il lui arrive malgré tout de manquer de cohérence dans la réponse.
D 4
Pierre Jourlin
SIMI : un système de suggestion de littérature médicale
Nous faisons la démonstration de SIMI, un système de suggestion de littérature médicale entièrement automatisé. À partir d’une description d’un cas clinique en français, SIMI extrait les termes médicaux présents en résolvant simultanément les éventuelles ambiguïtés. Il traduit alors les termes en anglais et construit une requête de recherche documentaire qui comprend les éventuels synonymes et hyponymes des termes originaux. Cette requête permet de retrouver et catégoriser les documents pertinents issus d’une base de plusieurs dizaines de millions de notices bibliographiques multilingues français-anglais. Ce système a été développé dans le cadre d’un transfert technologique associant une université, une société d’accélération de transfert technologique et une société qui commercialise une solution de téléexpertise médicale.
D 5
Maud Pironneau
Aider à une rédaction plus inclusive
Depuis 1993, Druide informatique est une entreprise québécoise spécialisée dans le développement et la commercialisation de logiciels d’aide à la rédaction. Son produit phare, Antidote, est une suite d’aide à la rédaction composée d’un correcteur, de dictionnaires et de guides, et est commercialisé depuis plus de 25 ans et est utilisé par plus d’un million de personnes, en français comme en anglais.
Le correcteur d’Antidote est un correcteur grammatical avancé qui effectue l’analyse complète de chaque phrase et tire de cette analyse ses multiples diagnostics, divisés dans plusieurs volets et filtres. Dans le volet Langue, Antidote pointe et corrige les fautes d’orthographe, de grammaire, de conjugaison, etc. en les expliquant. Dans le volet Style, le correcteur d’Antidote va plus loin et s’attaque à la stylistique, en présentant les répétitions, les tournures lourdes, la lisibilité, en s’appuyant sur les résultats de l’analyse linguistique.
TALN⊕RÉCITAL 2022 — Avignon
27 juin ⇢ 1er juillet 2022
Avignon Université   Aix-Marseille Université   Naver Labs Europe   MOBiDYS   ORKIS