L’une des décisions les plus importantes prises lors du premier atelier du projet MultiGenera à Saint-Jacques-de-Compostelle a été de travailler avec le concept du “prototype lexical”. La proposition est venue de Paulo Gamalho, professeur à l’USC et spécialiste externe invité à l’atelier. En travaillant avec les prototypes lexicaux pour chaque argument ou complément d’un nom, nous pouvons identifier les principales catégories sémantiques impliquées dans son signifié. Cette catégorisation sémantique nous permet d’établir des liens avec les catégories d’ontologies utilisées pour Wordnet et, à partir de cette grande base de données, d’extraire le maximum de mots (noms ou adjectifs) possible pour générer automatiquement l’argument d’un nom, par exemple : odeur de café, de thé,de vin, etc.
Les prototypes lexicaux, qu’est-ce que c’est ?
Le concept du prototype lexical provient de la
Théorie du prototype proposée par Eleanor Rosch. Selon cette psychologue, les catégories sémantiques (‘poissons’, ‘fruits’, ‘meubles’, etc.) ne sont pas homogènes car les unités de vocabulaire qui les composent n’ont pas le même poids : certaines sont plus représentatives que d’autres. Ainsi, lorsqu’on nous demande de penser à un fruit, nous sommes plus susceptibles d’imaginer une pomme ou une poire au lieu d’une figue. Pomme et poire seraient donc des prototypes de la catégorie ‘fruits’, au moins dans les cultures occidentales.
Dans le cas des compléments d’un nom, dont chacun est relié à certaines catégories sémantiques, on peut aussi observer quelque chose de similaire et, en fait, il est plus courant de dire ou d’entendre odeur de café que odeur de soupe, par exemple. Les nombreuses recherches que nous effectuons dans le corpus linguistique pour les trois langues du projet confirment cela systématiquement, notamment lors de l’analyse des données de fréquence. Ainsi, chaque argument d’un nom présente une série de prototypes lexicaux appartenant aux principales classes sémantiques concernées. Dans le cas de odeur de + nom, il s’agirait principalement de situations (états ou processus : odeur de mort, odeur de brûlé) et de substances (solides: odeur de tabac; liquides: odeur de café; ou gazeuses: odeur de fumée).
Des prototypes lexicaux dans MultiGenera, pour quoi faire ?
Les travaux de grammaire de dépendance ou valentielle ont révélé que, tout comme les compléments du verbe (connus plus communément comme sujet, objet direct, etc.), ceux du nom ne peuvent être construits avec n’importe quel type de mot, mais seulement avec d’autres noms ou des adjectifs ayant certaines caractéristiques sémantiques, c’est-à-dire appartenant à des classes sémantiques spécifiques. Ces classes sémantiques des compléments sont intimement liées à la signification du nom dont elles dépendent. Ainsi, les deux compléments ou arguments de odeur ne sont occupés que par des noms ou des adjectifs se référant à des entités ou des processus qui émettent des odeurs ou qui sont associés à une odeur particulière. Par exemple, il est étrange de dire l’odeur d’eau (bien qu’il soit possible de dire l’odeur de l’eau) mais pas l’odeur du café, car l’eau n’a pas d’odeur caractéristique. Précisément, travailler avec les prototypes lexicaux de chaque complément permet à MultiGenera de cibler des catégories sémantiques pertinentes et de limiter ainsi la génération de compléments sémantiquement inacceptables pour un locuteur moyen d’espagnol, d’allemand ou de français.
Les recherches sur les corpus nous permettent d’obtenir des listes de prototypes lexicaux à partir de données sur la fréquence avec laquelle un mot apparaît comme complément d’un nom donné. A partir de là, un étiquetage sémantique est fait pour chaque liste de prototypes, ce qui rend possible par la suite l’identification des principales catégories sémantiques impliquées dans un argument spécifique.
Pour générer et combiner automatiquement des arguments nominaux acceptables, nous devons d’abord identifier les catégories sémantiques impliquées dans chacun d’entre eux et rejeter le reste. En particulier, il est essentiel de délimiter ces catégories afin d’extraire le plus de mots possibles de Wordnet qui puissent fonctionner comme des compléments nominaux des dix noms sur lesquels nous travaillons. Cette extraction est faite à partir des catégories ontologiques liées aux catégories sémantiques précédemment identifiées sur les corpus. De cette façon, les catégories établies pour chaque argument nominal peuvent être élargies à partir d’un petit nombre de prototypes. On pourrait donc dire que ces extensions, traitées sous forme de paquets de données, constituent les véritables briques avec lesquelles MultiGenera génère et combine les compléments d’un nom.
Par conséquent, l’étiquetage sémantique systématique des prototypes lexicaux dans chaque argument nominal est une étape préalable et cruciale pour la génération automatique de compléments dans notre projet. A cette fin, deux cadres théoriques majeurs, la Grammaire de dépendance et la Théorie des prototypes, se réunissent dans MultiGenera pour tenter d’explorer de nouvelles voies dans le traitement automatique des langages naturels.