CIDE (2009) Slodzian : Différence entre versions

De CIDE
imported>Abdelhakim Aidene
imported>Abdelhakim Aidene
Ligne 51 : Ligne 51 :
  
  
3 Faire parler les textes
+
==Faire parler les textes==
  
3.1 La pertinence en jeu
+
=== La pertinence en jeu===
 
La dichotomie objectivité vs subjectivité qui présuppose l’existence de
 
La dichotomie objectivité vs subjectivité qui présuppose l’existence de
 
« normes scientifiques » actualisées par des méthodes, des standards et des pratiques devient à son tour un critère déterminant de démarcation entre « bonne » et « mauvaise » science. Au-delà des enjeux juridiques et économiques sous-jacents à ce débat, nous nous intéressons à sa dimension épistémologique. Cette dernière est en effet déterminante si l’on considère les textes comme lieux de production de l’information. Plus particulièrement, la catégorisation des genres textuels (par exemple scientifique vs vulgarisé) pose directement la question de la possibilité de discriminer les textes scientifiques et pseudo-scientifiques. Autrement dit, y a-t-il des caractéristiques formelles stables et généralisables qui permettent de distinguer un texte scientifique d’un texte pseudo- scientifique? A priori, la présence de tableaux statistiques ou d’indices de quantification et de bibliographie (parmi d’autres traits) semble caractérisante de textes présentant une valeur de vérité forte. Or, la fabrication d’une argumentation pseudo-scientifique consistera précisément à exhiber ces indices, parmi d’autres, de telle sorte qu’il sera impossible de trancher tant la conformité à la forme attendue est confondante. La question du vrai/faux, qu’on la considère comme pastiche ou sorte de spam, invite à prendre la textualité au sérieux. Le cas limite du « faux » – problème général posé aujourd’hui au Web – impose que l’on s’appuie sur une sémantique des textes élaborée, tant il est vrai qu’une liste finie de mots clés (concepts homologués du domaine) et de procédés rhétoriques externes (figures de style obligées) ne suffisent pas pour produire une analyse des textes suffisamment pertinente.
 
« normes scientifiques » actualisées par des méthodes, des standards et des pratiques devient à son tour un critère déterminant de démarcation entre « bonne » et « mauvaise » science. Au-delà des enjeux juridiques et économiques sous-jacents à ce débat, nous nous intéressons à sa dimension épistémologique. Cette dernière est en effet déterminante si l’on considère les textes comme lieux de production de l’information. Plus particulièrement, la catégorisation des genres textuels (par exemple scientifique vs vulgarisé) pose directement la question de la possibilité de discriminer les textes scientifiques et pseudo-scientifiques. Autrement dit, y a-t-il des caractéristiques formelles stables et généralisables qui permettent de distinguer un texte scientifique d’un texte pseudo- scientifique? A priori, la présence de tableaux statistiques ou d’indices de quantification et de bibliographie (parmi d’autres traits) semble caractérisante de textes présentant une valeur de vérité forte. Or, la fabrication d’une argumentation pseudo-scientifique consistera précisément à exhiber ces indices, parmi d’autres, de telle sorte qu’il sera impossible de trancher tant la conformité à la forme attendue est confondante. La question du vrai/faux, qu’on la considère comme pastiche ou sorte de spam, invite à prendre la textualité au sérieux. Le cas limite du « faux » – problème général posé aujourd’hui au Web – impose que l’on s’appuie sur une sémantique des textes élaborée, tant il est vrai qu’une liste finie de mots clés (concepts homologués du domaine) et de procédés rhétoriques externes (figures de style obligées) ne suffisent pas pour produire une analyse des textes suffisamment pertinente.
 +
 
S’il est vrai, comme le suggère Gloria Origgi, que « la vérification directe de l’information n’est tout simplement pas possible à des coûts raisonnables », ce passage à une ère d’informations de vérité faible est porteur de risques socioculturels incommensurables. Face à la crise annoncée, des outils opératoires nouveaux doivent être proposés,  faisant
 
S’il est vrai, comme le suggère Gloria Origgi, que « la vérification directe de l’information n’est tout simplement pas possible à des coûts raisonnables », ce passage à une ère d’informations de vérité faible est porteur de risques socioculturels incommensurables. Face à la crise annoncée, des outils opératoires nouveaux doivent être proposés,  faisant
  
 
appel à des approches transdisciplinaires demeurées à la lisière des travaux sur l’ingénierie des connaissances. En proposant la description de parcours interprétatifs assignant un ou plusieurs sens à un texte, la sémantique des textes, ouverte au document dans la perspective du numérique (RTP.DOC, 2006), affirme sa capacité à tracer et hiérarchiser les subjectivités qui traversent les textes et, en cela, à assumer leur part d’objectivation.
 
appel à des approches transdisciplinaires demeurées à la lisière des travaux sur l’ingénierie des connaissances. En proposant la description de parcours interprétatifs assignant un ou plusieurs sens à un texte, la sémantique des textes, ouverte au document dans la perspective du numérique (RTP.DOC, 2006), affirme sa capacité à tracer et hiérarchiser les subjectivités qui traversent les textes et, en cela, à assumer leur part d’objectivation.
 +
 
Par objectivation nous ne supposons pas une extraction immédiate de connaissances déliées des textes et de leurs interprétations possibles, comme le suggèrent les approches prescriptives en produisant des listes de mots censés livrer sans médiation les connaissances d’un texte. Nous posons au contraire la nécessité de passer par des procédures d’analyse pour faire émerger et caractériser les connaissances d’un texte en tenant compte de ses conditions de production et d’interprétation (ordre herméneutique), si l’on veut assurer leur pertinence par rapport à une tâche donnée.
 
Par objectivation nous ne supposons pas une extraction immédiate de connaissances déliées des textes et de leurs interprétations possibles, comme le suggèrent les approches prescriptives en produisant des listes de mots censés livrer sans médiation les connaissances d’un texte. Nous posons au contraire la nécessité de passer par des procédures d’analyse pour faire émerger et caractériser les connaissances d’un texte en tenant compte de ses conditions de production et d’interprétation (ordre herméneutique), si l’on veut assurer leur pertinence par rapport à une tâche donnée.
 +
 
Cette approche impliquant l’ordre herméneutique est incompatible avec  la philosophie sous-jacente à l'Internet des objets qui se réduit à l'ordre référentiel ou, au mieux, à l'ordre communicationnel. Il y a là un débat de fond à mener.
 
Cette approche impliquant l’ordre herméneutique est incompatible avec  la philosophie sous-jacente à l'Internet des objets qui se réduit à l'ordre référentiel ou, au mieux, à l'ordre communicationnel. Il y a là un débat de fond à mener.
  
3.2 La sémantique du document dans les SOC
+
=== La sémantique du document dans les SOC===
 +
 
 
La notion de document, défini comme "une artefact médiateur à dominante sémiotique inséré dans des flux transactionnels" qui nous vient des STIC (Zacklad et al., 2007) s’accompagne d’une vision ouverte de l’ingénierie des systèmes d’information à partir d’une réflexion nouvelle sur le processus de documentarisation. La théorie du document qui en émane met en avant « la recherche d’une complémentarité entre SOC hétérogènes, impliquant un rapprochement plus grand entre champs et secteurs différents ». On y trouve une invitation à construire  une approche unifiée des espaces sémiotiques ouverts par les TIC, à partir de la notion de co-production sémiotique.
 
La notion de document, défini comme "une artefact médiateur à dominante sémiotique inséré dans des flux transactionnels" qui nous vient des STIC (Zacklad et al., 2007) s’accompagne d’une vision ouverte de l’ingénierie des systèmes d’information à partir d’une réflexion nouvelle sur le processus de documentarisation. La théorie du document qui en émane met en avant « la recherche d’une complémentarité entre SOC hétérogènes, impliquant un rapprochement plus grand entre champs et secteurs différents ». On y trouve une invitation à construire  une approche unifiée des espaces sémiotiques ouverts par les TIC, à partir de la notion de co-production sémiotique.
 +
 
Le processus de documentarisation ainsi décrit propose un couplage texte/document où les approches de la sémantique interprétative peuvent trouver leur légitimité, en même temps qu’elles s’y verront confrontées à une dimension sémiotique nouvelle susceptible de renouveler le concept de texte. Il s’agira en particulier de voir comment des approches relevant respectivement d’une sémiotique du document et d’une sémantique du texte peuvent converger.
 
Le processus de documentarisation ainsi décrit propose un couplage texte/document où les approches de la sémantique interprétative peuvent trouver leur légitimité, en même temps qu’elles s’y verront confrontées à une dimension sémiotique nouvelle susceptible de renouveler le concept de texte. Il s’agira en particulier de voir comment des approches relevant respectivement d’une sémiotique du document et d’une sémantique du texte peuvent converger.
Nous tenterons maintenant de démontrer la possibilité de cette convergence en soumettant quelques propositions méthodologiques susceptibles d’intéresser ceux qui, dans la communauté STIC, partagent avec nous une vision « constructiviste » des connaissances et confèrent au
 
  
texte/document un statut herméneutique en rupture avec les descriptions strictement référentielles.
+
Nous tenterons maintenant de démontrer la possibilité de cette convergence en soumettant quelques propositions méthodologiques susceptibles d’intéresser ceux qui, dans la communauté STIC, partagent avec nous une vision « constructiviste » des connaissances et confèrent au texte/document un statut herméneutique en rupture avec les descriptions strictement référentielles.
  
  
4 Le texte comme système d’organisation des connaissances ?
+
==Le texte comme système d’organisation des connaissances ?==
 +
 
 
Dire que le texte est un SOC introduit un débat entre linguistique et ingénierie des connaissances. En effet, si la pratique de l’extraction de terminologies ou d’ontologies à partir de textes donne à penser que le texte est un espace de collecte privilégié, il serait faux de le considérer seulement comme le terrain d’actualisation des concepts : les concepts ne préexistent pas aux textes, ils sont des îlots, des zones stables de sens construits, élaborés dans les textes et par les textes. C’est pourquoi la textualité exerce des contraintes fortes sur l’élaboration des concepts.
 
Dire que le texte est un SOC introduit un débat entre linguistique et ingénierie des connaissances. En effet, si la pratique de l’extraction de terminologies ou d’ontologies à partir de textes donne à penser que le texte est un espace de collecte privilégié, il serait faux de le considérer seulement comme le terrain d’actualisation des concepts : les concepts ne préexistent pas aux textes, ils sont des îlots, des zones stables de sens construits, élaborés dans les textes et par les textes. C’est pourquoi la textualité exerce des contraintes fortes sur l’élaboration des concepts.
 +
 
D’une manière générale, la production et l’interprétation des textes sont soumises à des contraintes tant linguistiques que socioculturelles. Ainsi, les discours et les genres textuels configurent les textes en constituant des ensembles de règles de production et d’interprétation acquises ou apprises, parfois de manière inconsciente.
 
D’une manière générale, la production et l’interprétation des textes sont soumises à des contraintes tant linguistiques que socioculturelles. Ainsi, les discours et les genres textuels configurent les textes en constituant des ensembles de règles de production et d’interprétation acquises ou apprises, parfois de manière inconsciente.
Par exemple, les chercheurs en médecine, eux-mêmes médecins, sont susceptibles de produire, à partir du même contenu informationnel, différents discours : le discours scientifique  (à  l’attention  des chercheurs) ; le discours de la presse médicale (à l’attention des praticiens) et le discours de prévention (à l’attention des patients). Ainsi, au syntagme subtantival « prise de poids », on opposera dans certains textes    institutionnels    « la    forme    verbale    « grossir ».    Plutôt que
 
« surcharge pondérale », on lira par exemple sur un forum de  discussion
 
« être ronde ». En bref, les genres textuels organisent différemment la connaissance et à chaque pratique correspondent des genres particuliers. La prévention contre le tabagisme est fortement médicalisée dans les textes institutionnels, elle ne l’est que marginalement dans les forums de discussion dont l’objectif est pourtant identique3.
 
Dans les textes spécialisés, le genre choisi sélectionne les concepts et les organise en fonction de contraintes textuelles précises. D’une certaine manière, il décide de son niveau de spécialisation en éliminant certains concepts et en en privilégiant d’autres. Par exemple, un texte médical sur le tabagisme utilisera le concept hyperonymique tabac pour « cigarette »,
 
« pipe », « cigare », « narghilé », etc. tandis qu’un texte de vulgarisation privilégiera  les  hyponymes  en  fonction  de  leur  cible    (« cigarette »,
 
  
3 Ces observations proviennent d’études réalisées dans le cadre du projet ANR-07- MDCO-002 C-MANTIC destiné à élaborer des méthodologies et des outils pour l’application de la sémantique de corpus au filtrage des masses documentaires.
+
Par exemple, les chercheurs en médecine, eux-mêmes médecins, sont susceptibles de produire, à partir du même contenu informationnel, différents discours : le discours scientifique  (à  l’attention  des chercheurs) ; le discours de la presse médicale (à l’attention des praticiens) et le discours de prévention (à l’attention des patients). Ainsi, au syntagme subtantival « prise de poids », on opposera dans certains textes    institutionnels    « la    forme    verbale    « grossir ».    Plutôt que « surcharge pondérale », on lira par exemple sur un forum de  discussion « être ronde ». En bref, les genres textuels organisent différemment la connaissance et à chaque pratique correspondent des genres particuliers. La prévention contre le tabagisme est fortement médicalisée dans les textes institutionnels, elle ne l’est que marginalement dans les forums de discussion dont l’objectif est pourtant identique <ref>Ces observations proviennent d’études réalisées dans le cadre du projet ANR-07- MDCO-002 C-MANTIC destiné à élaborer des méthodologies et des outils pour l’application de la sémantique de corpus au filtrage des masses documentaires.</ref>.
  
« tabac à rouler ») et de l’ethos du lecteur supposé (un fumeur de cigarette n’est pas un fumeur de cigare). D’une manière générale, des analyses statistiques révèlent que le texte institutionnel construit un discours distancié, intellectuel quand le texte informel est davantage incarné ; en forçant le trait, on peut dire qu’il faut de la volonté pour s’arrêter dans un texte institutionnel (c’est-à-dire une faculté intellectuelle) et du courage dans un texte informel (c’est-à-dire une actualisation sensible  de la volonté)
+
Dans les textes spécialisés, le genre choisi sélectionne les concepts et les organise en fonction de contraintes textuelles précises. D’une certaine manière, il décide de son niveau de spécialisation en éliminant certains concepts et en en privilégiant d’autres. Par exemple, un texte médical sur le tabagisme utilisera le concept hyperonymique tabac pour « cigarette »,
 +
« pipe », « cigare », « narghilé », etc. tandis qu’un texte de vulgarisation privilégiera  les  hyponymes  en  fonction  de  leur  cible    (« cigarette », « tabac à rouler ») et de l’ethos du lecteur supposé (un fumeur de cigarette n’est pas un fumeur de cigare). D’une manière générale, des analyses statistiques révèlent que le texte institutionnel construit un discours distancié, intellectuel quand le texte informel est davantage incarné ; en forçant le trait, on peut dire qu’il faut de la volonté pour s’arrêter dans un texte institutionnel (c’est-à-dire une faculté intellectuelle) et du courage dans un texte informel (c’est-à-dire une actualisation sensible  de la volonté)
 
De ces exemples rapides, on conclura que les textes relèvent d’une planification de l’information. Cette planification est différentielle dans la mesure où les textes explicitent et organisent des connaissances apparentées de manières différentes. On peut en conséquence se risquer à allouer au textuel le statut de système d’organisation des connaissances.
 
De ces exemples rapides, on conclura que les textes relèvent d’une planification de l’information. Cette planification est différentielle dans la mesure où les textes explicitent et organisent des connaissances apparentées de manières différentes. On peut en conséquence se risquer à allouer au textuel le statut de système d’organisation des connaissances.
  
4.1 Textes, informations et connaissances différentielles
+
===Textes, informations et connaissances différentielles===
 
Pour illustrer notre propos, nous proposons d’étudier brièvement différents discours de prévention contre le tabagisme. Le projet général vise notamment les tabacologues et a pour objectif de mieux connaître les pratiques tabagiques. Pour cela, nous étudierons ici un corpus composé  de deux ensembles : (a) un discours institutionnel composé de sites médicaux (Ligue contre le cancer), de sites de lobbying (OFT) et de site de prévention du tabagisme (Pataclope, qui s’adresse aux adolescents) ou d’aide au sevrage (OFT) et (b) un discours informel, constitué de blog et de forums contre le tabac, sur le sevrage tabagique (Atoute).
 
Pour illustrer notre propos, nous proposons d’étudier brièvement différents discours de prévention contre le tabagisme. Le projet général vise notamment les tabacologues et a pour objectif de mieux connaître les pratiques tabagiques. Pour cela, nous étudierons ici un corpus composé  de deux ensembles : (a) un discours institutionnel composé de sites médicaux (Ligue contre le cancer), de sites de lobbying (OFT) et de site de prévention du tabagisme (Pataclope, qui s’adresse aux adolescents) ou d’aide au sevrage (OFT) et (b) un discours informel, constitué de blog et de forums contre le tabac, sur le sevrage tabagique (Atoute).
 
Sans entrer dans le détail d’une analyse textométrique qui n’est pas ici notre propos, nous tâcherons dans les paragraphes suivant de proposer  des grilles interprétatives générales destinées à mieux circonscrire d’un point de vue linguistique les différences de traitement de l’information et d’organisation ou de production des connaissances, pour une thématique semblable, dans ces deux types de discours. Nous aborderons tour à tour les statuts macroscopiques du texte, de l’information et de la connaissance.
 
Sans entrer dans le détail d’une analyse textométrique qui n’est pas ici notre propos, nous tâcherons dans les paragraphes suivant de proposer  des grilles interprétatives générales destinées à mieux circonscrire d’un point de vue linguistique les différences de traitement de l’information et d’organisation ou de production des connaissances, pour une thématique semblable, dans ces deux types de discours. Nous aborderons tour à tour les statuts macroscopiques du texte, de l’information et de la connaissance.
  
 
4.1.1 Le statut du texte
 
4.1.1 Le statut du texte
 
 
  
 
Sites institutionnels
 
Sites institutionnels

Version du 5 juillet 2016 à 10:10

Connaissances prescrites ou connaissances décrites ? L’apport de la sémantique des textes.


 
 

 
titre
Connaissances prescrites ou connaissances décrites ? L’apport de la sémantique des textes.
auteurs
Monique Slodzian (1), Mathieu Valette (2).
Affiliations
(1):CRIM-ERTIM (EA 2520) INaLCO, Paris
(2) :ATILF (UMR 7118) CNRS, Art Diagnosis Centre, 63071 Ormylia, Greece
In
CIDE.12 (Montréal), 2009
En PDF 
CIDE (2009) Slodzian.pdf
Mots-clés 
Connaissances prescrites, Vérité forte/vérité faible, Systèmes d’organisation des connaissances, Sémantique des textes, Parcours interprétatif, Planification de l’information, Forme sémantique, Thématisation, Lexicalisation.
Keywords
Prescriptive knowledge, Strong/weak truth, Knowledge Organisation Systems, Text Semantics, Interpretative path, Information planification, Semantic form, thematisation, lexicalisation.
Résumé
L’article vise à montrer que le modèle collaboratif de communication des connaissances revendiqué par le Web 2.0 ne rompt pas de manière significative avec le modèle épistémologique antérieur, issu du positivisme logique, notamment par son primat référentialiste prescriptif. En postulant in fine l’existence de concepts primitifs partagés, il est conduit à reproduire les mêmes limites que le Web sémantique fondé sur un socle de métadonnées réputées universelles. Par ailleurs, une acceptabilité indiscutée des connaissances de vérité faible pose des problèmes de fiabilité et de garantie susceptibles de compromettre le succès du modèle. L’article entend démontrer dans une deuxième partie en quoi la sémantique des textes peut contribuer à objectiver les connaissances par la description de parcours interprétatifs. Considérant que les textes relèvent d’une planification de l’information, l’article explicite la notion de forme sémantique, entre le texte et le concept, et envisage la possibilité de faire émerger des préconnaissances non encore lexicalisées. Cette proposition théorique est illustrée à partir de discours de prévention contre le tabagisme issus du Web.