NOMAGE
Analyse sémantique et codification
lexicale des nominalisations
|
Programme ANR "Jeunes chercheurs"
septembre 2007-septembre 2010
Porteur et coordinateur du programme : Rafael Marín
|
|
Au niveau empirique, nous proposons de
recueillir des occurrences de nominalisations variées au sein de plusieurs
corpus de référence, aussi bien en français que dans d'autres langues. Nous envisageons
d’exploiter des corpus étiquetés tels que le French Treebank (Abeillé, 2003) pour le français, et le corpus Negra pour l'allemand. La première étape de notre projet consistera donc à collecter des
exemples attestés de noms déverbaux et déadjectivaux,
par opposition aux exemples construits sur lesquels s'appuie traditionnellement
l'ensemble de la littérature. Le but de ce recueil de données est d'élargir le
spectre des analyses sémantiques proposées, afin de tenir compte de phénomènes
peu ou pas décrits. Nous nous appuierons aussi bien sur des approches
symboliques (à base de règles) que sur l'apprentissage automatique, à partir
des observations et pistes d'analyses développées dans le cadre du projet PAI Ontoref. Cette collecte de données revêt une importance
cruciale pour les étapes suivantes de notre projet. Elle offre également des
garanties quant à la réalisation de l'objectif applicatif général que nous
poursuivons : la constitution d'un lexique sémantique des nominalisations.
Du point de vue théorique, la question
centrale est de savoir si les formes nominalisées héritent de certains traits
sémantiques (notamment aspectuels) de leurs bases verbales ou adjectivales. Sur
ce point, la première difficulté rencontrée concerne les tests linguistiques de
diagnostic des propriétés aspectuo-temporelles. En
effet, les tests généralement employés dans le domaine verbal (Vendler, 1967; Dowty, 1979) s’appliquent
difficilement au domaine nominal. Un travail préliminaire (Huyghe & Marín, 2006) nous a permis de proposer plusieurs tests
linguistiques adaptés au traitement des nominalisations. Nous pouvons affirmer,
d'après les premiers résultats obtenus, que seule une partie des traits
aspectuels est effectivement héritée par les formes nominales. La détection des
divergences entre formes d'origine et formes dérivées, ainsi que l'élaboration
d'un ensemble de tests linguistiques adaptés au traitement de l'aspect nominal sont
les deux piliers de notre projet. Il s’agit d'apporter de nouveaux éléments à
la compréhension des relations entre l'Aktionsart des
noms et celle des verbes et adjectifs morphologiquement apparentés. A cet
objectif principal s'ajoute l'élaboration d'une ontologie adaptée au traitement
des objets abstraits (situations, faits, propositions) dénotés par les
nominalisations (Asher, 1993; Zuchi,
1993; Ginzburg & Sag,
2001).
Par ailleurs, il semble exister un consensus
dans le domaine du TAL concernant l'importance d'une meilleure compréhension
des contraintes sémantiques pesant sur les nominalisations, notamment dans le
cadre du développement d'ontologies et de l’extraction d'information.
Néanmoins, la prédominance des approches basées sur la structure argumentale est incontestable (Meyers et al., 1998). Nous proposons comme alternative à ce traitement univoque le
développement d'un lexique des nominalisations qui, tout en intégrant autant de
données que possible sur leur structure argumentale,
garantisse une codification fine de leur contenu sémantique.
L'autre retombée majeure du présent projet
concerne l'évaluation et la distribution d'un outil d'annotation sémantique.
Cet outil mettra en oeuvre les informations
accumulées et formalisées au sein du lexique sémantique proposé, ainsi que des
donnés provenant de XCRF, un outil généraliste d'annotation d'arbres XML
distribué par le GRAPPA-LIFL (Jousse et al., 2006). Il
s’agira ainsi d'assurer une large couverture empirique, en permettant aussi
bien l'étiquetage d'occurrences déjà rencontrées et décrites au sein du lexique
que celui d'occurrences nouvelles.
|