ANR PROGRAMME THEMATIQUE EN SCIENCES HUMAINES ET SOCIALES

 

CORPUS ET OUTILS DE LA RECHERCHE EN SCIENCES

HUMAINES ET SOCIALES

 

 

Projet CREAGEST

 

Nom du projet : Réalisation de corpus de données visuelles pour l’analyse des processus de création d’unités gestuelles (LSF et gestualité naturelle) (CREAGEST).

 

Responsables :

Porteur du projet : Christian Cuxac, UMR 7023 "Stuctures formelles du langage", Université Paris 8

Responsables scientifiques des autres partenaires :

Antonio Balvet, STL, UMR 8163, Université Lille 3
Cyril Courtin, UMR 6194, Groupe d'Imagerie Neurofonctionnelle

Durée du projet : 2007-2010.

 

Mots-clés : Sémiogénèse, gestualité, langue des signes, acquisition, iconicisation, néologisme, outils d’annotation, linguistique, psycholinguistique, traitement automatique des langues naturelles

 

 

Résumé du projet

 

 

1- Contexte scientifique et objectifs

L’ambition de ce projet est la constitution et la documentation de corpus de données vidéo de productions gestuelles incluant des productions discursives de Langue des Signes Française (LSF)  d’enfants et d’adultes sourds et des productions de gestualité naturelle (gestualité dite coverbale).

Un enjeu opérationnel large de ce projet est, à terme, de mettre à la disposition des communautés françaises et internationales de chercheurs des corpus substantiels et représentatifs en s’attachant à pallier les manques actuels en la matière et en visant une complémentarité avec les corpus déjà constitués.

Le choix des types de corpus et les méthodologies proposées visent à répondre à deux niveaux corrélés d’objectifs :

 

1) Un objectif de modélisation linguistique : il s’agit d’approfondir notre compréhension des processus à l’oeuvre dans la création, la sémiotisation et la stabilisation de la gestualité humaine signifiante.

Le modèle linguistique élaboré par Cuxac (1996, 2000) pour la LSF se fonde sur l’hypothèse d’une sémiogénèse ancrée sur un processus d’iconicisation de l’expérience perceptivo-pratique qui serait à l’oeuvre aussi bien au plan ontogénétique de l’acquisition et de la mise en place des structures linguistiques de la LSF chez l’enfant sourd qu’au plan phylogénétique de la constitution de la langue et de son évolution. Notre projet vise à constituer des corpus permettant d’explorer et tester la validité de cette hypothèse.

 

2) Un objectif centré sur la documentation des corpus : l’enjeu est de permettre à terme aux différentes communautés de chercheurs et de locuteurs un accès constructif et pérenne aux données recueillies. On projette à ce titre :

- L’élaboration d’une plateforme devant permettre la formation d’enquêteurs sourds aux méthodes de recueil de données, l’archivage sur un serveur, la mise en place des moyens de pérennisation des méthodes, des collectes et des collaborations.

- Une optimisation des outils d’annotation, qui comprendra une formation générale à un outil d’annotation (ANVIL), permettant aux chercheurs de concevoir des fichiers de spécifications (standard XML).

- Une prise en compte de l’interopérabilité, pour un meilleur échange international des données et des analyses entre chercheurs : Projet ECHO (avec la norme IMDI pour les métadonnées et le logiciel ELAN), l’immense base de données CHILDES.

 

2. Description du projet, méthodologie

Le qrojåt ast découpé en 5 Sous-Projets, dont 3 centrés sur la réalisation de corpus et 2 centrés sur leur annotation et leur pérennisation.

On constituera ainsi :

- un corpus de productions d’enfants sourds (rareté des corpus existants, rareté des recherches en acquisition de la LSF, alors que la demande institutionnelle est forte)

- un corpus de gestualité naturelle, gestualité coverbale d’adultes entendants mis en relation ou non avec des adultes sourds pratiquant la LSF (aucune base de données vidéo accessible en France)

- un corpus de néologismes en LSF (aucune collecte systématique n’ayant encore été réalisée)

Deux caractéristiques sont transversales aux trois corpus : a) les locuteurs, enfants et adultes, sourds et entendants, seront répartis sur l’ensemble du territoire français (corpus existants plus centrés sur la région parisienne) ; b) les corpus refléteront la diversité des genres discursifs : dialogues (corpus actuels majoritairement monologiques) ; genres explicatif et descriptif (vs narratifs) ; registre métalinguistique.

 

Les 2 Sous-Projets plus techniques s’attacheront d’une part à élaborer une plateforme collaborative sur un serveur web et à mettre en place des moyens de pérennisation des méthodes, des collectes et des collaborations, d’autre part à adapter des outils d’aide à la transcription et à la fouille de corpus (création de plugins, indexation des structures transcrites en vue de requêtes complexes, etc.).

 

Le projet se déroulera sur 48 mois. Les différentes tâches seront abordées par les trois partenaires de façon complémentaire : SFL organisera la constitution des données, son recueil et son analyse, grâce à une solide expérience en la matière, ainsi que le bagage théorique dans la description linguistique de la LSF; GIN apportera l’ancrage théorique et méthodologique concernant le champ de l’acquisition de la LSF par l’enfant sourd et son développement cognitif ; enfin, STL apportera ses compétences en TALN et en linguistique de corpus, nécessaire à l’annotation des données et à leur analyse automatisée. Il est à noter que les 3 partenaires associés, qui ont déjà eu l’occasion de collaborer sur des actions de recherche et de formation, ont une connaissance approfondie de la LSF et de la communauté de ses locuteurs. .

 

3. Résultats attendus

Les résultats attendus sont multiples et touchent à la fois la recherche fondamentale et la recherche appliquée. Ils devraient permettre de poser les bases d’une norme qui servira à la fois :

a) pour les néologismes enregistrés sur la plateforme web, à établir les fondements de véritables dictionnaires de LSF dont les entrées seront basées sur les composants morphémiques (Cuxac,2004).

b) le corpus inédit de LSF enfantine peut servir à moyen et long terme de socle commun de référence pour les études (actuellement à l’état embryonnaire) sur l’acquisition de la LSF et sur la didactique de la LSF. Les retombées didactiques sont de deux ordres :

- La mise en place des bases d’une grammaire de la LSF enfantine

- L’élaboration, sur ces bases, d’un référentiel de compétences langagières de LSF enfantine.

Enfin, le projet devrait permettre une collaboration plus égalitaire avec des chercheurs sourds au moyen des différentes formations théoriques et méthodologiques proposées, l’enjeu étant la préservation et le développement de la LSF (langue en danger).