L’enjeu des prépositions en français et ses retombées computationnelles

L’un des problèmes auxquels nous sommes confrontés pour générer des phrases dans les projets MultiGenera et MultiComb est lié aux prépositions, et plus particulièrement en allemand et en français. Comme on le sait, au sein du groupe nominal, les prépositions relient le noyau, un nom, à ses différents compléments. Ces derniers peuvent être des actants, c’est-à-dire des arguments nécessaires ou requis pour compléter le sens du nom noyau. Par exemple: le texte de philosophie, une question sur l’avortement, leur fuite en Belgique). Mais il peut aussi s’agir de circonstants (ou de circonstantiels, comme on les étudie habituellement à l’école) non indispensables, c’est-à-dire qui pourraient être exclus sans altérer le sens essentiel du noyau, par exemple : nos textes de cette année, une question en l’air, une fuite à pied). Bien qu’en français la préposition ne soit pas toujours nécessaire pour relier un complément au noyau dont il dépend (par exemple, une question histoire, une fuite la nuit), le lien avec préposition est l’option la plus fréquente.

Pour la grammaire valentielle, cadre théorique de nos projets, ces compléments ou arguments actantiels jouent aussi un certain rôle sémantique (agent, patient, bénéficiaire, expérient, cause, locatif, etc). C’est précisément ce rôle sémantique qui détermine la préposition reliant un argument à son noyau. Ainsi, quelques-uns des traits ou valeurs sémantiques de la préposition retenue (et chacune en a généralement plusieurs) doivent être en accord avec le rôle sémantique de l’argument qu’elle introduit. Par exemple, le nom fuite présente un argument de ‘parcours’ ou de ‘passage’ qui est introduit par la préposition par. Ex : la fuite par ce chemin, les fuites par mer. En effet, parmi ses différentes valeurs, par contient celle de passage. Dans ce sens, elle est équivalente à la locution à travers (la fuite à travers ce chemin).

Ce n’est pas si évident

Cependant, les choses ne sont pas si évidentes car, comme dans beaucoup d’autres langues, nombreux sont les compléments actantiels du français qui marquent leur rôle sémantique avec plusieurs prépositions. Ainsi, pour introduire l’argument ‘lieu d’origine’ que requiert habituellement le nom fuite, on peut utiliser les prépositions de ou depuis. P.ex.: la fuite de Bordeaux, la fuite depuis Bordeaux. Mais l’utilisation de l’une ou l’autre préposition n’est pas aléatoire, car chacune d’elles nuance d’une certaine manière le rôle sémantique du complément actantiel. L’utilisation de depuis semble centrer l’attention sur le point de départ par rapport au parcours d’une fuite, alors que de ne présente pas cette nuance-là. On observe quelque chose de similaire dans l’argument qui exprime la cause dans le nom mort (‘cessation de la vie’). Là encore, on retrouve l’utilisation de deux prépositions de (la mort de faim, la mort de soif, la mort d’amour) et par (la mort par asphyxie, la mort par lapidation, la mort par arrêt cardiaque) associées à des nuances sémantiques. Ainsi, l’utilisation de la préposition de semble signaler un état de manque de quelque chose (eau, nourriture, air, affection) comme cause de la mort, alors que les réalisations avec par ne présentent pas cette nuance.

Dans le cas de présence et de son complément locatif, celui qui exprime le lieu dans lequel quelque chose ou quelqu’un est présent, on trouve déjà le double des possibilités (à, sur, dans et en), p.ex.: sa présence à Paris, sa présence sur Paris, sa présence dans Paris, sa présence en Italie. Deux facteurs en interaction semblent expliquer ici le choix des différentes prépositions :

  1. Comme dans les cas précédents, l’utilisation de sur et dans introduit des nuances de sens par rapport à l’emploi de à et en. L’utilisation de sur (sa présence sur Paris) indique une présence en différents points ou le long d’une région ou d’une zone, alors que dans (sa présence dans Paris) renvoie plutôt à une présence interne, c’est à dire, à l’intérieur d’un lieu ou de ses différents éléments.
  2. D’autre part, en et à sont sélectionnées en fonction des traits sémantiques du noyau de l’argument locatif. Comme il est bien connu, la préposition à est normalement employée avec les toponymes des quartiers, des villages ou des villes, ainsi qu’avec des noms masculins de régions et et de pays (sa présence à Paris, sa présence au Portugal). Par contre, l’utilisation de en est requise par les noms féminins (sa présence en France, sa présence en Galice). Enfin, sur est utilisée avec des espaces virtuels (webs, forums, réseaux sociaux, etc.: sa présence sur Facebook) et des objets célestes, par exemple : sa présence sur Mars, sa présence sur la Lune. Dans le cadre de la Théorie Sens-Texte, particulièrement importante pour le projet MultiComb, ces contraintes sont formalisées par la fonction lexicale Locinin:

(Mars)Locin = sur [~]
(Galice)Locin = en [~]
(Marseille)Locin = à [~]

Comment s’y prendre?

Pour leur génération automatique, le traitement de ces phénomènes demande donc des solutions en termes computationnels. Dans le cadre de MultiGenera, nous avons pris les décisions suivantes :

  • Pour le cas des compléments dont la variation de leur préposition est régie par les traits sémantiques de la case argumentale (ex. : la mort de faim vs la mort par asphyxie), et étant confrontés à deux réalisations différentes, nous avons alors décidé de les traiter comme deux structures distinctes. Ce qui signifie que chaque structure se verra attribuer des paquets sémantiques spécifiques. Ainsi, la structure Det. + mort ~ morts + de + Nom (la mort de faim) sera associée aux paquets sémantiques [+situation, +état] (ex. froid, faim), tandis que des paquets [+situation, +processus] (ex. asphyxie, maladie) seront utilisés pour Det. + mort ~ morts + par + N (la mort par dénutrition). À cet égard, le même traitement est retenu que dans les très nombreux cas où une même préposition introduit des arguments différents pour un même nom (le texte de Paul, le texte d’économie).
  • Dans le cas des réalisations d’un même complément qui partagent des classes sémantiques (par exemple, sa présence au Portugal, sa présence en Espagne), la même solution sera adoptée. C’est à dire, les structures avec de et avec à seront traitées comme deux réalisations différentes et, par conséquent, elles auront des packages sémantiques spécifiques. Ainsi, on créera d’une part des paquets spécifiques avec des toponymes ou des types de lieux requérant la préposition à (Montmartre, Rome, Cuba) et, d’autre part, des paquets de toponymes associés à l’emploi de en (Bretagne, Espagne).

Comme on vient de le voir, le traitement des prépositions au sein du groupe du nom peut ne pas être aussi simple qu’il y paraît à première vue. La double rection (exercée, d’une part, par le noyau du groupe nominal et, d’autre part, par le noyau de l’argument) et les nuances sémantiques introduites par les prépositions elles-mêmes nous amène à programmer plus de structures et à créer des paquets spécifiques pour celles-ci. Mais, comme on dit, Paris ne s’est pas fait en un jour non plus.