CIDE (2007) Royauté : Différence entre versions
imported>Ali Tebbakh (→Grammaire et analyse) |
imported>Jacques Ducloy |
||
(27 révisions intermédiaires par 3 utilisateurs non affichées) | |||
Ligne 4 : | Ligne 4 : | ||
{{CIDE boîte bibliographique|texte= | {{CIDE boîte bibliographique|texte= | ||
− | ;Titre:[[A pour titre::Analyser les structures prédicatives pour mettre en relation des objets scientifiques | + | ;Titre:[[A pour titre::Analyser les structures prédicatives pour mettre en relation des objets scientifiques]] |
− | ]] | ||
;Auteurs:[[A pour premier auteur::Jean Royauté]] et [[A pour auteur::Elisabeth Godbert ]] et [[A pour auteur::Mohamed Mahdi Malik]]. | ;Auteurs:[[A pour premier auteur::Jean Royauté]] et [[A pour auteur::Elisabeth Godbert ]] et [[A pour auteur::Mohamed Mahdi Malik]]. | ||
− | |||
::royaute@lif.univ-mrs.fr | ::royaute@lif.univ-mrs.fr | ||
::godbert@lif.univ-mrs.fr | ::godbert@lif.univ-mrs.fr | ||
::malik@lif.univ-mrs.fr | ::malik@lif.univ-mrs.fr | ||
− | ;Affiliation:[[A pour affiliation auteur::LIF | + | ;Affiliation:[[A pour affiliation auteur::Laboratoire d'informatique fondamentale de Marseille|LIF]],[[A pour affiliation auteur::Centre national de la recherche scientifique|CNRS]] , [[A pour affiliation auteur::Université de la Méditrrannée|Université de la Méditrrannée]], UMR 6166, F-13 288 Marseille) |
− | ;In: [[Est dans les actes::CIDE 10 Nancy| | + | ;In: [[Est dans les actes::CIDE 10 Nancy |CIDE'10]] (Nancy 2007) |
;En ligne: http://lodel.irevues.inist.fr/cide/index.php?id=148 | ;En ligne: http://lodel.irevues.inist.fr/cide/index.php?id=148 | ||
;Mots-clés:Structures prédicatives ; groupes nominaux prédicatifs ; grammaire de dépendances ; extraction d’information. | ;Mots-clés:Structures prédicatives ; groupes nominaux prédicatifs ; grammaire de dépendances ; extraction d’information. | ||
Ligne 182 : | Ligne 180 : | ||
Pour chaque phrase qu'il analyse, le LP produit un ensemble de résultats, appelé linkages. C'est l'ensemble des analyses possibles de la phrase conformes à la grammaire. Plus la phrase est longue, plus le nombre d'analyses est élevé. | Pour chaque phrase qu'il analyse, le LP produit un ensemble de résultats, appelé linkages. C'est l'ensemble des analyses possibles de la phrase conformes à la grammaire. Plus la phrase est longue, plus le nombre d'analyses est élevé. | ||
− | + | [[fichier: CIDE 7 Royauté6.jpg|600px|thumb|center|'''Fig 5''': Différentes analyses proposées en sortie par le Link Parser]] | |
− | |||
− | Fig | ||
− | |||
Il est nécessaire d'effectuer alors un post-traitement de l'ensemble de ces analyses, pour en extraire les informations qui nous intéressent. | Il est nécessaire d'effectuer alors un post-traitement de l'ensemble de ces analyses, pour en extraire les informations qui nous intéressent. | ||
− | Le traitement que nous effectuons sur ces sorties du LP permet de classer les linkages suivant leur pertinence. A partir du classement que donne le LP, classé par ordre de pertinence selon les heuristique de base du LP [11], nous sélectionnons prioritairement les analyses qui : | + | Le traitement que nous effectuons sur ces sorties du LP permet de classer les linkages suivant leur pertinence. A partir du classement que donne le LP, classé par ordre de pertinence selon les heuristique de base du LP [{{CIDE lien citation|11}}], nous sélectionnons prioritairement les analyses qui : |
− | + | *permettent qu’un GNP, chaque fois que cela est compatible avec sa structure, ait au moins un argument ; | |
− | + | *maximisent le nombre de liens argumentaux nouveaux que nous avons créés, attachés à un GNP ; | |
− | + | *saturent le premier GNP d’une suite de GNP. | |
− | Nous montrons dans l’exemple la figure 5 comment est réalisé le premier critère. Pour cette phrase le Link Parser produit huit analyses. Les deux analyses que nous présentons ont des scores équivalents (cost vector), cependant la seconde permet d’avoir deux liens argumentaux attachés à la tête prédicative régulation (MST et MOT) alors que la première n’utilise qu’un lien prépositionnel classique de type Mp pour connecter la préposition of à regulation. Le post-traitement retient donc cette seconde analyse. | + | Nous montrons dans l’exemple la figure 5 comment est réalisé le premier critère. Pour cette phrase le Link Parser produit huit analyses. Les deux analyses que nous présentons ont des scores équivalents (cost vector), cependant la seconde permet d’avoir deux liens argumentaux attachés à la tête prédicative régulation (MST et MOT) alors que la première n’utilise qu’un lien prépositionnel classique de type Mp pour connecter la préposition of à ''regulation''. Le post-traitement retient donc cette seconde analyse. |
− | Ces heuristiques qui s’appuient sur la capacité de la grammaire à proposer les meilleures analyses dans le cas de la présence d’un GNP dans une phrase donnent de bons résultats. Sur la première version de cette grammaire [10], à partir d’un corpus de 335 résumés de MedLinepour lequel 1337 phrases exprimant des relations entre deux gènes ont été extraites manuellement, nous avons sélectionné aléatoirement un échantillon de 60 GNP dans lesquels la nominalisation apparaît avec au moins un actant. Sur cet échantillon, nous obtenons une précision de 88,5% pour la reconnaissance des bons arguments, chaque fois qu’ils peuvent être identifiés. D’autres tests sont prévus sur cette nouvelle version. | + | Ces heuristiques qui s’appuient sur la capacité de la grammaire à proposer les meilleures analyses dans le cas de la présence d’un GNP dans une phrase donnent de bons résultats. Sur la première version de cette grammaire [{{CIDE lien citation|10}}], à partir d’un corpus de 335 résumés de MedLinepour lequel 1337 phrases exprimant des relations entre deux gènes ont été extraites manuellement, nous avons sélectionné aléatoirement un échantillon de 60 GNP dans lesquels la nominalisation apparaît avec au moins un actant. Sur cet échantillon, nous obtenons une précision de 88,5% pour la reconnaissance des bons arguments, chaque fois qu’ils peuvent être identifiés. D’autres tests sont prévus sur cette nouvelle version. |
==Conclusion== | ==Conclusion== | ||
Nous avons montré dans cet article la complexité des structures prédicatives nomino-verbales et l'intérêt d'en donner une description approfondie en extraction d'information, tant pour l'analyse syntaxique que pour capturer les éléments d'information pertinents à intégrer dans une base de connaissances. Cela nous a amené à établir une typologie, reposant sur un sous-ensemble significatif des GNP, avec leurs différents patrons et leurs structures argumentales. Pour tester la validité de notre travail, nous avons modifié la grammaire du Link Parser. Nous avons défini des liens spécifiques pour identifier le rôle de chaque actant dans la grammaire. A partir des données du Specialist Lexicon, des entrées spécifiques à la grammaire ont été créées qui tiennent compte des différents emplois d’une structure nominales et des éventuelles ambiguïtés qui peuvent apparaître quand la structure n’est pas complète. | Nous avons montré dans cet article la complexité des structures prédicatives nomino-verbales et l'intérêt d'en donner une description approfondie en extraction d'information, tant pour l'analyse syntaxique que pour capturer les éléments d'information pertinents à intégrer dans une base de connaissances. Cela nous a amené à établir une typologie, reposant sur un sous-ensemble significatif des GNP, avec leurs différents patrons et leurs structures argumentales. Pour tester la validité de notre travail, nous avons modifié la grammaire du Link Parser. Nous avons défini des liens spécifiques pour identifier le rôle de chaque actant dans la grammaire. A partir des données du Specialist Lexicon, des entrées spécifiques à la grammaire ont été créées qui tiennent compte des différents emplois d’une structure nominales et des éventuelles ambiguïtés qui peuvent apparaître quand la structure n’est pas complète. | ||
− | Des tests en cours, nous retirons la nécessité de compléter la description des structures prédicatives pour couvrir l’ensemble des nominalisations présentes dans le Specialist Lexicon. Nous avons également le projet d’étendre la description aux nominalisations d’adjectifs (deficient / deficiency) et aux noms prédicatifs sans lien morphologique avec un verbe ou un adjectif (affinity, etc.). | + | Des tests en cours, nous retirons la nécessité de compléter la description des structures prédicatives pour couvrir l’ensemble des nominalisations présentes dans le Specialist Lexicon. Nous avons également le projet d’étendre la description aux nominalisations d’adjectifs (''deficient / deficiency'') et aux noms prédicatifs sans lien morphologique avec un verbe ou un adjectif (''affinity'', etc.). |
==Remerciements== | ==Remerciements== | ||
Ligne 210 : | Ligne 205 : | ||
==Références bibliographiques== | ==Références bibliographiques== | ||
− | {{CIDE biblio|id=E. Alphonse | + | {{CIDE biblio |
+ | |id=1 | ||
+ | |auteur=Erick Alphonse{{!}}E. Alphonse | ||
+ | |auteur 2=Sophie Aubin{{!}}S. Aubin | ||
+ | |auteur 3=Philippe Bessières{{!}}P. Bessières | ||
+ | |auteur 4=Gilles Bisson{{!}}G. Bisson | ||
+ | |auteur 5=Thierry Hamon{{!}}T. Hamon | ||
+ | |auteur 6=Sandrine Lagarrigue{{!}}S. Lagarigue | ||
+ | |auteur 7=Adeline Nazarenko{{!}}A. Nazarenko | ||
+ | |auteur 8=Alain-Pierre Manine{{!}}A-P. Manine | ||
+ | |auteur 9=Claire Nédellec{{!}}C. Nedellec | ||
+ | |auteur 10=Mohamed Ould Abdel Vetah{{!}}M. O. Vetah | ||
+ | |auteur 11=Thierry Poibeau{{!}}T. Poibeau | ||
+ | |auteur 12=Davy Weissenbacher{{!}}D. Weissenbacher | ||
+ | |texte="(2004), Event-based information extraction for the biomedical domain: the Caderige project. Proceedings of the International Workshop on Natural language, Processing in Biomedicine and its Applications (JNLPBA), 43-49." | ||
+ | }} | ||
+ | {{CIDE biblio | ||
+ | |id=2 | ||
+ | |auteur=Allen C. Browne{{!}}Allen C. Browne | ||
+ | |auteur 2=Alexa T . McCray{{!}}Alexa T . McCray | ||
+ | |auteur 3=Suresh Srinivasan{{!}}Suresh Srinivasan | ||
+ | |texte="2000. The SPECIALIST lexicon technical report, Lister Hill National Center for Biomedical Communications, National Library of Medicine, USA." | ||
+ | }} | ||
+ | {{CIDE biblio | ||
+ | |id=3 | ||
+ | |auteur= Minlie Huang {{!}} Minlie Huang | ||
+ | |auteur 2=Xiaoyan Zhu{{!}}Xiaoyan Zhu | ||
+ | |auteur 3=Yu Hao{{!}} Yu Hao | ||
+ | |auteur 4=Donald G. Payan{{!}}Donald G. Payan | ||
+ | |auteur 5=Kunbin Qu{{!}}Kunbin Qu | ||
+ | |auteur 6=Ming Li{{!}}Ming Li | ||
+ | |texte="2004. Discovering patterns to extract protein-protein interactions from full texts. Bioinformatics, 20(18):3604-3612." | ||
+ | }} | ||
+ | {{CIDE biblio | ||
+ | |id=4 | ||
+ | |auteur=Gondy Leroy{{!}}Gondy Leroy | ||
+ | |auteur 2=Hsinchun Chen{{!}}Hsinchun Chen | ||
+ | |auteur 3=Jesse D. Martinez{{!}}Jesse D. Martinez | ||
+ | |texte="2003. A shallow parser based on closed-class words to capture relations in biomedical text. Journal of Biomedical Informatics, 36:145-58. | ||
+ | " | ||
+ | }} | ||
+ | {{CIDE biblio | ||
+ | |id=5 | ||
+ | |auteur=Daniel M. McDonald{{!}}Daniel M. McDonald | ||
+ | |auteur 2= Hsinchun Chen{{!}}Hsinchun Chen | ||
+ | |auteur 3=Hua Su{{!}}Hua Su | ||
+ | |auteur 4=Byron B. Marshall{{!}}Byron B. Marshall | ||
+ | |texte="2004. Extracting gene pathway relations using a hybrid grammar: the arizonarelation parser. Bioinformatics, 20(18):3370-3378." | ||
+ | }} | ||
− | + | {{CIDE biblio | |
+ | |id=6 | ||
+ | |auteur=Catherine Macleod{{!}}Catherine Macleod | ||
+ | |auteur 2=Ralph Grishman{{!}}Ralph Grishman | ||
+ | |auteur 3=Adam Meyers{{!}}Adam Meyers | ||
+ | |auteur 4=Leslie Barrett{{!}}Leslie Barrett | ||
+ | |auteur 5=Ruth. Reeves{{!}}Ruth Reeves | ||
− | + | |texte="NOMLEX: A Lexicon of Nominalizations. Proceedings of EURALEX'98, Liege, Belgium, August 1998." | |
+ | }} | ||
− | + | {{CIDE biblio | |
− | + | |id=7 | |
− | + | |auteur={{!}}Igor Mel’cuk | |
− | + | |texte="1988. Dependency syntax: theory and practice. State University of New-York Press." | |
− | + | }} | |
− | + | {{CIDE biblio | |
− | + | |id=8 | |
− | + | |auteur= Adam Meyers{{!}} Adam Meyers | |
− | + | |auteur 2= Catherine Macleod{{!}}Catherine Macleod | |
− | + | |auteur 3=Roman Yangarber{{!}}Roman Yangarber | |
− | + | |auteur 4=Ralph Grishman{{!}}Ralph Grishman | |
− | + | |auteur 5=Leslie Barrett{{!}}Leslie Barrett | |
− | + | |auteur 6=Ruth Reeves{{!}}Ruth Reeves | |
− | + | |texte="1998. Using NOMLEX to produce nominalization patterns for information extraction. In Proceedings of the COLING-ACL '98 Workshop on Computational Treatment of Nominals, Montreal, Canada." | |
− | + | }} | |
− | + | ||
− | + | {{CIDE biblio | |
− | + | |id=9 | |
− | + | |auteur=Robert Pasero{{!}}Robert Pasero | |
− | + | |auteur 2=Jean Royauté{{!}} Jean Royauté | |
− | + | |auteur 3=Paul Sabatier{{!}}Paul Sabatier | |
+ | |texte="(2004). Sur la syntaxe et la sémantique des groupes nominaux à tête prédicative. Linguisticae Investigationes, 27(1):83-124." | ||
+ | }} | ||
+ | {{CIDE biblio | ||
+ | |id=10 | ||
+ | |auteur=Jean Royauté | ||
+ | |auteur 2=E. Godbert{{!}}Elisabeth Godbert | ||
+ | |auteur 3=M. M. Malik {{!}}Mohamed Mahdi Malik | ||
+ | |texte="(2006) Groupes nominaux prédicatifs : Utilisation d'une grammaire de liens pour l'extraction d'information, Actes de la 13e conférence sur le Traitement Automatique des Langues Naturelles (TALN-2006), Cahiers du Cental 2.2, Verbum ex machina, P. Merten, C. Fairon, A. Dister et P. Watrin (Eds), 276-286, Volume 1, 2006." | ||
+ | }} | ||
+ | {{CIDE biblio | ||
+ | |id=11 | ||
+ | |auteur=Davy Temperley{{!}}Davy Temperley | ||
+ | |auteur 2=Daniel Sleator{{!}}Daniel Sleator | ||
+ | |texte="1991. Parsing English with a Link Grammar. Carnegie Mellon University Computer Science technical report, CMU-CS-91-196, Carnegie Mellon University,USA." | ||
+ | }} | ||
+ | {{CIDE biblio | ||
+ | |id=12 | ||
+ | |auteur=Lucien Tesnière {{!}} Lucien Tesnière | ||
+ | |texte="(1959) Eléments de syntaxe structurale. Paris: Klincksieck." | ||
+ | }} | ||
+ | {{CIDE biblio | ||
+ | |id=13 | ||
+ | |auteur= Akane Yakushiji{{!}} Akane Yakushiji | ||
+ | |auteur 2=Yuka Tateisi{{!}}Yuka Tateisi | ||
+ | |auteur 3=Yusuke Miyao{{!}}Yusuke Miyao | ||
+ | |texte="2001. Event extraction from biomedical papers using a full parser. In Proceedings of the sixth Pacific Symposium on Biocomputing. | ||
+ | " | ||
+ | }} | ||
− | {{CIDE | + | ==Notes== |
+ | <references/> | ||
+ | [[Catégorie:Article de conférence]] | ||
+ | {{CIDE article terminé}} | ||
+ | __SHOWFACTBOX__ |
Version actuelle datée du 23 mars 2018 à 17:43
Analyser les structures prédicatives pour mettre en relation des objets scientifiques
|
Sommaire
- Résumé
- L’identification des structures prédicatives présente un grand intérêt quand on se situe dans une problématique d’extraction d’information. Si une littérature abondante existe à ce sujet, particulièrement dans le domaine de la génomique, la plupart des travaux portent sur les relations autour du verbe. Peu s’intéressent à la relation qui peut unir un nom prédicatif (dérivé de verbes, d'adjectifs ou non dérivés) et ses actants dans un groupe nominal prédicatif (GNP). Nous montrons la complexité de ces structures ainsi que les relations de paraphrase qui les unissent aux constructions verbales. Nous décrivons ensuite la grammaire de liens que nous avons développée permettant l’analyse de GNP du domaine de la biologie et qui s’intègre dans la grammaire existante du Link Parser. Pour finir, nous montrons comment nous améliorons les heuristiques de sélection des meilleures analyses.
- Abstract
- The identification of predicate structures is very interesting for work on information extraction. If an abounding literature exists on this subject, particularly in the field of the genomics, it mostly concerns relations around the verb. Few researchers are interested in the relation that links a predicative noun (derived from verbs, from adjectives or not derived) and its actants in a noun phrase with a predicative head (PNP). We show the complexity of these structures as well as paraphrase relations which link them to verbal constructions. We then describe the link grammar which we have developed to parse PNPs in the biology field. This grammar is integrated in the existing Link Parser grammar. Lastly, we show how we have enhanced the selection heuristics of the best parsing.
- Keywords
- Predicate structure, predicate noun phrases, dependency grammar, information
Introduction
Une difficulté importante de l'extraction d'information dans des textes scientifiques est de pouvoir identifier des informations qui expriment un même contenu sous des formes très diverses. Cela est particulièrement vrai quand le domaine d'extraction porte sur l'acquisition de relations entre entités biologiques, comme par exemple les interactions gènes/protéines. La plupart des travaux existants s'appuient sur les prédicats verbaux et leurs actants, c'est-à-dire leurs arguments sujet et complément(s). Cependant les verbes ne sont pas les seuls éléments prédicatifs dans une phrase. Un grand nombre de noms jouent également ce rôle dans des proportions importantes. Nous illustrons ce fait de langue par trois exemples rencontrés dans des textes et construits autour du verbe to regulate et sa nominalisation (regulation) : telomerase activity is mainly regulated by hTERT, the regulation of eIF4E by 4E-BP phosphorylation is performed at its free state et this study reports the first evidence of VEGF regulation by heregulin in cancer cells.
Ces exemples mettent en évidence la difficulté de relier entre elles les différentes formes du prédicat regulate avec ses arguments, quand celui-ci apparaît sous une forme verbale ou nominale. Nous cherchons donc à donner une représentation unifiée de ces différentes formes de surface. Ces occurrences nominales sont très nombreuses dans les textes scientifiques. Cependant les travaux en extraction d’information traitent superficiellement les groupes nominaux prédicatifs. Notre objectif est de définir des méthodes et outils d'analyse robuste afin d'identifier, dans la structure du groupe nominal, les groupes prépositionnels qui sont des arguments du prédicat, pour être en mesure de mettre en évidence des relations pertinentes entre entités scientifiques.
Nous nous intéressons ici aux relations que les mots entretiennent entre eux dans la phrase, plutôt qu'à un découpage en syntagmes. Nous avons donc opté pour une analyse avec une grammaire de liens, qui est une variante des grammaires de dépendances [12, 7]. Ce type de grammaire est intéressant car elle permet de n’extraire que les relations réellement utiles et ignorer les autres. Nous utilisons la grammaire et l’analyseur (Link Parser) de Sleator, Temperley (1991) [11][1].
Dans ce papier nous présentons les structures prédicatives, nous en donnons une définition et mettons en évidence la complexité de ce type de structure en montrant leurs différentes formes de surface. Nous montrons ensuite comment les groupes nominaux à tête prédicative (GNP) s'intègrent dans les structures prédicatives ainsi que les différentes propriétés qui permettent de les classer. Nous présentons ensuite la grammaire des GNP que nous avons intégrée dans la grammaire d’origine du Link Parser (LP) ainsi que les heuristiques permettant de sélectionner les meilleures analyses.
Structures prédicatives
L'identification des relations prédicatives pour extraire des schémas d’interaction génique a fait l’objet de nombreux travaux, mais les principales études reposent toutes sur les structures verbales. Ces recherches concernent des traitements réalisant soit une analyse complète [5, 13], soit une analyse partielle de type shallow-parsing [1, 4] ou encore de type pattern-matching [3]. Alphonse et al. (2004) [1] s'intéressent aux structures prédicatives nomino-verbales, mais d'un point de vue général, sans décrire avec précision les différents patterns nominaux représentatifs de la complexité du problème. Concernant les nominalisations, bien que peu de travaux exploitent ces données, on remarquera le projet NOMLEX [6], qui décrit finement environ 1000 nominalisations et leurs relations argumentales et qui a pu être utilisé dans des expérimentations d'extraction d'information [8]. Nous situons notre travail dans cette perspective dans la mesure où il est fortement motivé linguistiquement et repose sur des données complexes.
Prédicats
Nous définissons par prédicat les mots auxquels on peut attacher des arguments. Il s'agit des verbes, des adjectifs et ainsi que certains noms que nous nommons noms prédicatifs. De façon générale, un nom est dit prédicatif quand il présente les mêmes relations argumentales qu'un verbe [9]. Chacun des arguments joue un rôle conceptuel précis de type sujet, complément ou circonstant. Un GNP, par exemple VEGF regulation by heregulin, relié à la phrase heregulin regulates VEGF, est ici formé d'une tête prédicative regulation suivie de ses actants heregulin et VEGF introduits ou non par une préposition. On remarque qu'entre les deux structures, il y a conservation des actants et que l'on pourrait y adjoindre un éventuel circonstant (in cancer cells). Elles diffèrent cependant par l'ordre d'apparition de la tête prédicative, de ses actants, de ses éventuels circonstants et par des marqueurs appropriés (prépositions ou conjonctions) qui permettent de localiser de façon stable les actants d'un GNP saturé, c'est-à-dire en présence de tous ses actants.
Nous désignons par structure prédicative une classe structurée de prédicats nominaux, adjectivaux et verbaux où viennent s'agréger les éléments d'information que l'on cherche à mettre en évidence. Ces structures prédicatives rendent compte à la fois des différentes formes de surface susceptibles d'être rencontrées et d'une représentation sémantique sous-spécifiée de l'information reposant sur des fonctions syntaxiques argumentales de type sujet, complément(s) et circonstant(s).
Patrons syntaxiques
D'une façon générale, les patrons syntaxiques d'une structure prédicative correspondent aux différentes formes de surface qui véhiculent la même information et dans lesquelles le verbe, le nom ou l'adjectif peut apparaître avec ses compléments essentiels. Plus précisément, nous désignons par patron un squelette grammatical décrivant les différents actants du prédicat dans sa forme saturée. Ces patrons peuvent contenir des marqueurs appropriés qui sont soit des prépositions soit des conjonctions, et qui précèdent certains actants. Pour un nom prédicatif, on définit ainsi des n-uplets de prépositions/conjonctions, dont la fonction est de marquer de façon stable les actants des groupes nominaux prédicatifs saturés. Par exemple, dans le GNP the regulation of eIF4E by 4E-BP phosphorylation,nous montrons à partir des différents patrons décrits dans la section 2 (Groupes nominaux prédicatifs) pourquoi les prépositions by et of marquent respectivement un nom sujet et un nom complément. En cas d'effacement d’un ou plusieurs arguments, cette capacité de marquage s'amoindrit dans la mesure où ces marqueurs n'ont pas toujours la capacité d'identifier seuls les actants, particulièrement quand ils sont précédés de la préposition of.
Groupes nominaux prédicatifs
Notre travail porte sur les noms prédicatifs dérivés de verbes. Chacun de ces noms prédicatifs peut apparaître dans différentes formes de surface. Nous y distinguons d'une part les actants de la forme verbale associée, composés du sujet et des compléments essentiels, et d'autre part les circonstants. Nous montrons que la structure des GNP est étroitement corrélée à la nature du verbe qui correspond à la tête prédicative nominale. Nous reprenons la méthodologie utilisée dans [9] sur les propriétés des GNP du français et donnons un premier inventaire des GNP de l'anglais tels qu'on les rencontre dans la littérature en génomique.
Nous appuyons notre description des GNP de l'anglais, d'une part sur des observations en corpus (web, articles scientifiques, etc.) et d'autre part sur l'exploitation d'un lexique-grammaire (Specialist Lexicon (SL), [2][2]) de l'anglais qui décrit les différents emplois verbaux (transitifs, intransitifs, prépositionnels, ditransitifs, infinitifs, à complétives, etc.) et qui donne pour chaque verbe la nominalisation à laquelle il est associé, ainsi que les prépositions pouvant être des introducteurs de compléments de nom. Leroy et al. (2002)[4] se sont intéressés à de telles structures en utilisant des analyses locales et les données du Specialist Lexicon. Cependant les patrons qu'ils utilisent reposent essentiellement sur les verbes transitifs, mis ou non au passif, et les constructions nominales associées.
Nous présentons ici sept classes de prédicats nominaux, parmi les plus significatives, qu'il est possible de relier à des constructions verbales. Nous ne traitons pour le moment ni les verbes à complétives ni les verbes à infinitives, dont le type de complément peut apparaître également dans les constructions nominales. Les prédicats de ces structures représentent un sous-ensemble des noms prédicatifs de l'anglais identifiés dans SL. Dans les différents exemples nous utilisons la notation N0 V W, où V désigne le verbe et W une suite éventuellement vide de compléments (N1 ... Nn) associés à ce verbe. Il est possible, ainsi que nous le montrons par la suite, de mettre en relation de façon unifiée les GNP formés avec des noms prédicatifs, et une phrase simple.
Nous avons adopté comme critère de classification le rôle porté par la préposition of suivant qu'elle marque un groupe nominal complément (cas des prédicats associés à des constructions verbales à complément d'objet direct) ou un groupe nominal sujet (cas des prédicats associés à des constructions verbales sans complément ou à complément prépositionnel).
of comme marqueur du complément
Ces classes correspondent aux verbes ayant au moins un complément de type complément d’objet direct (COD). De façon très régulière, ce COD, est marqué par la préposition of dans le GNP.
- Classe N0 V N1 : Cette classe regroupe tous les prédicats qui se construisent avec un complément direct et qui acceptent le passif. Certains de ces prédicats ont également un emploi intransitif, cependant nous ne nous intéresserons qu'à la forme saturée, car le complément, même s'il est omis, est virtuellement présent. Plus de 1000 couples verbe/nom entrent dans cette configuration. La forme nominale associée à cette construction est la suivante :
Npred of N1 by N0 : activation of protein kinase C delta by IFN-gamma
On remarque donc que la préposition of marque le complément direct et la préposition by, que l'on retrouve dans les phrases passives, marque le sujet. A côté de ces formes régulières, il en existe d'autres, où la préposition by peut être associée à d'autres prépositions pour introduire le sujet (absorption : absorption of glucose in/into/by/ the bloodstream).
Les représentants de cette classe sont les couples : activate / activation, absorbate / absorption.
- Classe N0 V N1 Prep N2 : Il s'agit d'une construction à complément direct admettant un second complément prépositionnel qui, dans un grand nombre de cas, est optionnel. La structure nominale saturée de ce type de prédicat est la suivante :
Npred of N1Prep N2 by N0 : attribution of a protein fragment to a sequence (by X).
Le représentant de cette classe est le couple attribute / attribution.
of comme marqueur du sujet
La préposition of comme marqueur du sujet dans le GNP correspond à toutes les constructions verbales n’admettant pas de COD, que ce soit pour les verbes sans complément ou pour les verbes à un ou plusieurs compléments prépositionnels.
- Classe N0 V : Il s'agit de constructions sans complément. A ces prédicats à un seul actant correspondent des prédicats nominaux pour lesquels seule la préposition of peut introduire le sujet :
Npred of N0 : necrosis of the femoral head
Le représentant de cette classe est le couple necrose / necrosis.
- Classe N0 V Prep N1 : Ces constructions à complément prépositionnel, comme les constructions à complément direct, peuvent avoir un emploi sans complément. Cependant, dans ce cas aussi, le complément effacé est virtuellement présent. Les constructions prépositionnelles présentent un intérêt tout particulier dans la mesure où la préposition associée au verbe pour introduire le complément se retrouve à l'identique (dans la très grande majorité des cas) dans les constructions nominales comme ci-dessous :
Npred of N0Prep N1 : fluctuation of tryptophans in gramicidin
Le représentant de cette classe est le couple : fluctuate / fluctuation.
- Classe N0 V Prep N1 Prep N2 : Dans cette classe, les deux compléments font partie des entrées lexicales du verbe. Comme pour les nominalisations issues de verbes à un complément prépositionnel, on retrouve ces prépositions dans le GNP. Le GNP saturé aura la forme suivante :
Npred of N0Prep N1Prep N2: decrease of temperature from 200 K to 70 K
Le représentant de cette classe est le couple : decrease / decrease
Constructions à arguments permutables
Il s’agit ici de prédicats nominaux reliés à une classe particulière de verbes ou le sujet et le complément ou encore les compléments peuvent commuter librement sans altérer le sens de la phrase ou du GNP mais aussi sans modifier leurs structures syntaxiques. Pour cette raison, nous notons ces actants respectivement Na et Nb.
- Classe Na V with Nb: Plusieurs emplois nominaux équivalents, que nous détaillons ci-dessous, existent pour ce type de GNP.
Npred of Na with Nb : interaction of genes with proteins
Npred of/between Na and Nb : interaction of / between genes and proteins
Npred of/between Nplur : interaction between two genes
Dans le dernier de ces emplois, Nplur désigne un nom au pluriel. La forme plurielle signifie que le nom en question représente une classe et que la relation s'établit entre deux ou plusieurs éléments de cette classe.
Le représentant de cette classe est le couple : interact / interaction.
- Phrases de type N0 V Na Prep Nb : Cette classe est une variante de la première dans la mesure où Na et Nb peuvent se retrouver sujet ou complément dans une construction Na V Prep Nb ou au contraire tous les deux compléments. Dans ce dernier cas, c’est le sujet qui provoque la relation entre Na et Nb. Cependant, même comme complément, Na et Nb gardent la possibilité de permuter.
Npred of Na with/to Nb by N0 : connection of a new sequence with/to a cluster
Npred of /between Na and Nb by N0 : connection of/between a new sequence and a cluster
Npred of/between Nplur by N0 : connection of nodes
On remarquera que l’élément N0 apparaît rarement, aussi bien dans les constructions verbales que nominales.
Le représentant de cette classe est le couple : connect / connection
Pour tous les patrons nominaux que nous avons décrits, l'actant introduit par la préposition of peut se retrouver en position modifieur à gauche du nom prédicatif (regulation of VGF / VGF regulation). Les actants marqués par une autre préposition peuvent difficilement occuper cette place, bien que nous en ayons observé quelques cas en corpus. C'est la raison pour laquelle nous acceptons de les analyser comme tels.
Une grammaire des noms prédicatifs
Les données
Le Specialist Lexicon [2 est un lexique qui donne des informations syntaxiques et morphologiques intéressantes sur les verbes, les adjectifs et leurs nominalisations. A partir de ces informations, il nous a été possible de déduire, pour chacun des prédicats nominaux considérés, quels étaient le ou les n-uplet de marqueurs (prépositions, conjonctions, ...) susceptibles d'introduire un actant (sujet ou complément(s)) dans le GNP.
Si nous nous intéressons aux entrées du verbe to engage (cf. Fig. 1), nous constatons que ce verbe présente sept emplois verbaux intéressants pour la description des GNP :
- intran : signifie que le verbe a un emploi sans complément (intransitif) ;
- tran=np : signifie qu'il s'agit d'un verbe transitif dont le complément (COD) est un groupe nominal (np) ;
- tran=pphr(for,np) : signifie qu’il s’agit d’un verbe à complément prépositionnel introduit par for ;
- tran=pphr(in,np) : signifie qu’il s’agit d’un verbe à complément prépositionnel introduit par in;
- tran=pphr(upon,np) : signifie qu’il s’agit d’un verbe à complément prépositionnel introduit par upon ;
- tran=pphr(with,np) : signifie qu’il s’agit d’un verbe à complément prépositionnel introduit par with;
- ditran=np,pphr(in,np) : marque un emploi ditransitif avec un premier complément qui est un COD et un second qui est introduit par la préposition in.
Enfin, il est précisé que ce verbe a pour nominalisation engagement. D’autre part, nous pouvons remarquer que dans les entrées de engagement (cf. Fig. 1), cette nominalisation admet deux compléments de nom, construits respectivement avec la préposition of (compl=pphr(of,np)) et/ou la préposition by (compl=pphr(by,np)), sans que soit précisé quel type d’argument ces prépositions étaient susceptibles d’introduire.
A partir de ces informations, nous avons ramené les différentes entrées du verbe à deux patrons verbaux saturés : N0 V N1 in N2 et N0 V for/with/upon N1. Le premier patron correspondant à la classe 2 et permet d’analyser des structures telles que Npredof N1in N2 by N0. Le second correspond à la classe 4 et permet d’analyser le GNP Npred of N0for/with/upon N1. Cette représentation enrichit la représentation initiale de engagement, en tenant compte des prépositions associées au verbe engage.
Grammaire et analyse
Nous analysons les textes à partir d'une grammaire de liens [7]. Le résultat de l’analyse d’une phrase est un graphe dans lequel les mots sont reliés deux à deux par des arcs étiquetés par des fonctions grammaticales. Dans l'implémentation de ce type de grammaire avec le Link Parser [11], les mots sont reliés par la jonction entre un lien X+ (vers la droite) et un lien X- (vers la gauche) où X est une étiquette quelconque. Par exemple, la grammaire ci-dessous montre que dans une analyse un nom propre est relié à un autre mot par un lien Ss+ (fonction sujet) ou un lien Os- (fonction objet direct), et que le verbe to activate est relié par des liens Ss- et Os+. La jonction d'un Ss+ et d'un Ss- permet d'établir un lien Ss entre le sujet et le verbe, et de même pour Os entre le verbe et son complément. L'analyse de PDK1 activates SGK est représentée par le graphe ci-dessous:
Grammaire :
Nous utilisons cet analyseur dont les sources et une grammaire conséquente de l'anglais sont disponibles. Chaque entrée du lexique-grammaire du LP est un couple (L,R), dans lequel L est une liste de mots et R est une formule plus ou moins complexe qui exprime l'ensemble des liens qui peuvent être attachés aux mots de L.
De façon standard, la grammaire du Link Parser permet le rattachement d'un verbe (resp. nom) à n'importe quelle préposition qui introduit un GN. Le lien utilisé est toujours MVp (resp. Mp) : modifieur verbal prépositionnel (resp. modifieur prépositionnel). Réciproquement, une préposition attend toujours un lien de type Mp ou MVp. Or, dans les GNP, des n-uplets de prépositions (couplés dans certains cas avec des conjonctions) précèdent et marquent les actants. Nous avons donc dû définir de nouveaux liens que nous nommons « liens argumentaux ». Ces liens permettent d'identifier, lors de l'analyse d'un GNP, ses différents actants. Lors de l'analyse d'une phrase, ce sont ces liens qui sont recherchés, de façon préférentielle.
Dans [10] nous avons écrit une première version de la grammaire portant sur un sous-ensemble significatif de nominalisations verbales. Cette version s'est révélée difficilement maintenable et évolutive dans la mesure où une même nominalisation pouvait être à l'origine de plusieurs patrons syntaxiques. Il nous avait fallu créer des classes de noms regroupant les différentes possibilités de patrons qui leur étaient associées. Toute information syntaxique nouvelle, tout ajout de nominalisation pouvait compromettre la validité d'une classe et nous amener à la redéfinir. Pour surmonter cette difficulté, nous avons redéfini une version augmentée de cette grammaire en créant une sous-classe par patron syntaxique. Pour les cas où un ensemble de nominalisations pouvaient être liées à plusieurs patrons syntaxiques pouvant engendrer des ambiguïtés (en cas d'effacement des arguments par exemple) nous avons créé des sous-classes spécifiques. La grammaire que nous avons mise au point comprend 37 sous-classes réparties selon les différents emplois des verbes associés aux nominalisations telles qu’elles ont été décrites dans la section 2.
Si un mot, dans la grammaire du Link Parser admet plusieurs descriptions syntaxiques, il est nécessaire qu’il apparaisse plusieurs fois dans la grammaire avec chaque fois une extension différente. Nous avons donc du rajouter une extension qui caractérise la sous-classe de chaque nom prédicatif et qui permet d’analyser plusieurs fois le même nom prédicatif apparaissant dans des constructions syntaxiques différentes.
Dans la section précédente, nous avons vu que engagement admet plusieurs constructions nominales. Nous allons détailler quelques constructions significatives de cette nominalisation. La première (cf. Fig. 2) concerne la classe 2, c’est-à-dire un GNP à trois arguments de la forme Npred of N1 in N2 by N0. Comme cela est courant avec des GNP à plus de deux arguments, il est difficile de les rencontrer en texte sous leur forme saturée. Nous présentons donc deux analyses incomplètes. La première, qui relève de la sous-classe ndt0 permet de traiter des GNP dont la préposition héritée de la forme verbale (ici avec in) n’est pas présente, et toutes les possibilités d’effacement (ambiguës ou non) qui vont avec. Dans l'analyse produite, le lien MSDT identifie le sujet, tandis que le lien MODT marque l'objet direct des formes à trois arguments possibles. La seconde, qui relève de la sous-classe ndt9 permet de traiter la forme saturée de ce GNP et toutes les formes effacées mais pour laquelle la préposition héritée du verbe est présente.
L’examen de la figure 3 montre l’emploi prépositionnel de engagement correspondant à la classe 4 (Npred of N0Prep N1). Comme nous pouvons le voir, l'extension ni4 caractérise la classe des emplois à deux arguments avec compléments marqués par la préposition with, et ni12 celle marquée avec upon. Le lien MSI identifie le sujet introduit par of, tandis que le lien MCIWI marque le complément introduit par la préposition with et MCIUP celui avec upon. Dans cet exemple, on remarque qu’un lien particulier (ASI) a été créé pour traiter le cas où l'actant sujet introduit par la préposition of se trouve en position de pré-modifieur. Remarquons qu'il existe à ce niveau une ambiguïté, car exceptionnellement cette position peut être occupée par un circonstant. Le dernier exemple montre qu’une sous-classe particulière (no) a du être créée pour tenir compte du fait qu’en cas de GNP construit uniquement avec la préposition of, on ne peut rattacher cette construction à aucune des sous-classes décrites ci-dessus.On peut voir dans cette figure que le lien MSCTI indique l’ambiguïté entre sujet ou complément.
Une autre particularité de la grammaire est de pouvoir traiter des formes complexes très nombreuses en génomique correspondant à la classe 6, où, comme nous l’avons vu, sujet et complément sont permutables et équivalents sémantiquement. Nous donnons ci-dessous deux exemples d'analyse avec interaction. Dans le premier, les liens MAS et MBSWI identifient respectivement les co-agents de la classe Na V with Nb. On remarque que la classe de ce premier emploi symétrique est marqué par l'extension ns1. Pour le second emploi, marqué par l'extension ns2, nous avons créé un lien spécifique à between (BWDIS)permettant de distribuer les co-agents JAS et JBS autour de la conjonction and pour satisfaire le patron et Npred of/betweenNa and Nb.
Filtrage des analyses
Pour chaque phrase qu'il analyse, le LP produit un ensemble de résultats, appelé linkages. C'est l'ensemble des analyses possibles de la phrase conformes à la grammaire. Plus la phrase est longue, plus le nombre d'analyses est élevé.
Il est nécessaire d'effectuer alors un post-traitement de l'ensemble de ces analyses, pour en extraire les informations qui nous intéressent.
Le traitement que nous effectuons sur ces sorties du LP permet de classer les linkages suivant leur pertinence. A partir du classement que donne le LP, classé par ordre de pertinence selon les heuristique de base du LP [11], nous sélectionnons prioritairement les analyses qui :
- permettent qu’un GNP, chaque fois que cela est compatible avec sa structure, ait au moins un argument ;
- maximisent le nombre de liens argumentaux nouveaux que nous avons créés, attachés à un GNP ;
- saturent le premier GNP d’une suite de GNP.
Nous montrons dans l’exemple la figure 5 comment est réalisé le premier critère. Pour cette phrase le Link Parser produit huit analyses. Les deux analyses que nous présentons ont des scores équivalents (cost vector), cependant la seconde permet d’avoir deux liens argumentaux attachés à la tête prédicative régulation (MST et MOT) alors que la première n’utilise qu’un lien prépositionnel classique de type Mp pour connecter la préposition of à regulation. Le post-traitement retient donc cette seconde analyse.
Ces heuristiques qui s’appuient sur la capacité de la grammaire à proposer les meilleures analyses dans le cas de la présence d’un GNP dans une phrase donnent de bons résultats. Sur la première version de cette grammaire [10], à partir d’un corpus de 335 résumés de MedLinepour lequel 1337 phrases exprimant des relations entre deux gènes ont été extraites manuellement, nous avons sélectionné aléatoirement un échantillon de 60 GNP dans lesquels la nominalisation apparaît avec au moins un actant. Sur cet échantillon, nous obtenons une précision de 88,5% pour la reconnaissance des bons arguments, chaque fois qu’ils peuvent être identifiés. D’autres tests sont prévus sur cette nouvelle version.
Conclusion
Nous avons montré dans cet article la complexité des structures prédicatives nomino-verbales et l'intérêt d'en donner une description approfondie en extraction d'information, tant pour l'analyse syntaxique que pour capturer les éléments d'information pertinents à intégrer dans une base de connaissances. Cela nous a amené à établir une typologie, reposant sur un sous-ensemble significatif des GNP, avec leurs différents patrons et leurs structures argumentales. Pour tester la validité de notre travail, nous avons modifié la grammaire du Link Parser. Nous avons défini des liens spécifiques pour identifier le rôle de chaque actant dans la grammaire. A partir des données du Specialist Lexicon, des entrées spécifiques à la grammaire ont été créées qui tiennent compte des différents emplois d’une structure nominales et des éventuelles ambiguïtés qui peuvent apparaître quand la structure n’est pas complète.
Des tests en cours, nous retirons la nécessité de compléter la description des structures prédicatives pour couvrir l’ensemble des nominalisations présentes dans le Specialist Lexicon. Nous avons également le projet d’étendre la description aux nominalisations d’adjectifs (deficient / deficiency) et aux noms prédicatifs sans lien morphologique avec un verbe ou un adjectif (affinity, etc.).
Remerciements
Nous sommes très reconnaissants à Christine Brun et Bernard Jacq, du Laboratoire de Génétique et Physiologie du Développement (LGPD, Marseille, de nous avoir fourni un corpus annoté de résumés de MedLine sur lequel nous avons pu travailler.
Références bibliographiques
[1] ↑ E. Alphonse, S. Aubin, P. Bessières, G. Bisson, T. Hamon, S. Lagarigue, A. Nazarenko, A-P. Manine et C. Nedellec, "(2004), Event-based information extraction for the biomedical domain: the Caderige project. Proceedings of the International Workshop on Natural language, Processing in Biomedicine and its Applications (JNLPBA), 43-49."
[2] ↑ Allen C. Browne, Alexa T . McCray et Suresh Srinivasan, "2000. The SPECIALIST lexicon technical report, Lister Hill National Center for Biomedical Communications, National Library of Medicine, USA."
[3] ↑ Minlie Huang, Xiaoyan Zhu, Yu Hao, Donald G. Payan, Kunbin Qu et Ming Li, "2004. Discovering patterns to extract protein-protein interactions from full texts. Bioinformatics, 20(18):3604-3612."
[4] ↑ Gondy Leroy, Hsinchun Chen et Jesse D. Martinez, "2003. A shallow parser based on closed-class words to capture relations in biomedical text. Journal of Biomedical Informatics, 36:145-58. "
[5] ↑ Daniel M. McDonald, Hsinchun Chen, Hua Su et Byron B. Marshall, "2004. Extracting gene pathway relations using a hybrid grammar: the arizonarelation parser. Bioinformatics, 20(18):3370-3378."
[6] ↑ Catherine Macleod, Ralph Grishman, Adam Meyers, Leslie Barrett et Ruth Reeves, "NOMLEX: A Lexicon of Nominalizations. Proceedings of EURALEX'98, Liege, Belgium, August 1998."
[7] ↑ , "1988. Dependency syntax: theory and practice. State University of New-York Press."
[8] ↑ Adam Meyers, Catherine Macleod, Roman Yangarber, Ralph Grishman, Leslie Barrett et Ruth Reeves, "1998. Using NOMLEX to produce nominalization patterns for information extraction. In Proceedings of the COLING-ACL '98 Workshop on Computational Treatment of Nominals, Montreal, Canada."
[9] ↑ Robert Pasero, Jean Royauté et Paul Sabatier, "(2004). Sur la syntaxe et la sémantique des groupes nominaux à tête prédicative. Linguisticae Investigationes, 27(1):83-124."
[10] ↑ Jean Royauté, Elisabeth Godbert et Mohamed Mahdi Malik, "(2006) Groupes nominaux prédicatifs : Utilisation d'une grammaire de liens pour l'extraction d'information, Actes de la 13e conférence sur le Traitement Automatique des Langues Naturelles (TALN-2006), Cahiers du Cental 2.2, Verbum ex machina, P. Merten, C. Fairon, A. Dister et P. Watrin (Eds), 276-286, Volume 1, 2006."
[11] ↑ Davy Temperley et Daniel Sleator, "1991. Parsing English with a Link Grammar. Carnegie Mellon University Computer Science technical report, CMU-CS-91-196, Carnegie Mellon University,USA."
[12] ↑ Lucien Tesnière, "(1959) Eléments de syntaxe structurale. Paris: Klincksieck."
[13] ↑ Akane Yakushiji, Yuka Tateisi et Yusuke Miyao, "2001. Event extraction from biomedical papers using a full parser. In Proceedings of the sixth Pacific Symposium on Biocomputing. "