VSST (2012) Hajlaoui

De VSST

Aide à l'expertise des brevets par alignement avec les publications scientifiques


 
 

 
Auteurs
Kafil Hajlaoui, Pascal Cuxac, Jean Charles Lamirel, Claire François.
Affiliations
Institut de l'information scientifique et technique
Résumé
Ce travail s’inscrit dans le cadre du programme de recherche QUAERO, un vaste projet de recherche et d’innovation se rapportant au traitement automatique de contenus multimédias et multilingues. L’objectif abordé dans cet article est de proposer une méthode de classification automatique d’articles dans un plan de classement international de brevets relevant du même domaine. La finalité applicative de ce travail est de proposer une aide aux experts dans le processus d’évaluation de l’originalité et la nouveauté d’un brevet, en lui proposant les citations scientifiques les plus pertinentes. Ce problème soulève de nouveaux défis en catégorisation liés du fait que le plan de classement des brevets n’est pas directement adapté à la structure des documents scientifiques et que la répartition des exemples disponibles n’est pas nécessairement équilibrée entre les différentes classes d’apprentissage. Nous proposons pour les résoudre d’appliquer une amélioration de l’algorithme des K-plus-proches-voisins (K-PPV) se basant sur l’exploitation des règles d’associations entre les termes descripteurs des documents et ceux des classes de brevets. En utilisant conjointement comme référentiels une base de brevets du domaine de la pharmacologie et une base bibliographique du même domaine issue de la collection Medline, nous montrons que cette nouvelle technique de catégorisation, qui combine les avantages des approches numériques et ceux des approches symboliques, permet d’améliorer sensiblement les performances de catégorisation, relativement aux méthodes de catégorisation usuelles, dans le cas du problème posé.

Biliographie

[1] AGRAWAL, R. et SRIKANT R. Fast algorithms for mining association rules in large data bases. Journal of Computer Science and Technology (1994) Volume: 15, Issue: 6, Publisher: Morgan Kaufmann Publishers Inc., pp. 487-499.

[2] APTE, C., DAMERAU, F. et WEISS S. M. Text mining with decision rules and decision trees. Proceedings of the Conference on Automated Learning and Discovery, Workshop 6: Learning from Text and the Web, 1998.

[3] COHEN, A.M. et HERSH, W.R.: A survey of current work in biomedical text mining. Briefings in Bioinformatics 6, pp. 57-71, 2005.

[4] CORMACK, G. V. et LYNAM, T. R. Online supervised spam filter evaluation. ACM Transactions on Information Systems, 25(3):11, 2007.

[5] DURANT, K. et SMITH, M. Predicting the Political Sentiment of Web Log Posts Using Supervised Machine Learning Techniques Coupled with Feature Selection. In Advances in Web Mining and Web Usage Analysis: 8th International Workshop on Knowledge Discovery on the Web, Webkdd 2006, pages 187–206, Philadelphia. Springer-Verlag New York Inc,, 2007.

[6] EVANS, M., MCINTOSH, W., LIN, J., et CATES, C. Recounting the courts? Applying automated content analysis to enhance empirical legal research. Journal of Empirical Legal Studies, 4(4):1007–1039, 2007.

[7] FONTAINE, JF., BARBOSA-SILVA, A., SCHEFER, M., HUSKA MR., MURO EM. et ANDRADE-NAVARRO, MA. MedlineRanker: flexible ranking of biomedical literature. Nucleic Acids Res 37(Web Server issue): W141-W146, 2009.

[8] HILLARD, D., PURPURA, S., et WILKERSON, J. An active learning framework for classifying political text. In Annual Meeting of the Midwest Political Science Association, Chicago (2007).

[9] IYER, R.; LEWIS, D.; SCHAPIRE, R.; SINGER, Y.; et SINGHAL, A. Boosting for document routing. In Proceedings of the Ninth International Conference on Information and Knowledge Management, 2000.

[10] JOACHIMS, T.: A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization in Proceedings of ICML-97, 14th International Conference on Machine Learning, 1997

[11] 16 JOACHIMS T., «Text categorization with support vector machines: Learning with many relevant features». In proceedings of the European conference on Machine learning, pp. 137-142, 1998.

[12] JONES, S. et KAREN. A statistical interpretation of term specificity and its application in retrieval, Journal of Documentation, pp. 11-21, 1972.

[13] KRALLINGER, M., VAZQUEZ, M, LEITNER, F, SALGADO, D et VALENCIA, A. Results of the BioCreative III (Interaction) Article Classification Task. In Proceedings of the Third BioCreative Workshop, Bethesda, USA, 13-15 September 2010, 2010

[14] LAN, M., TAN, C.L., SU, J. et LOW, H.B.: Text representations for text categorization: a case study in biomedical domain. In: IJCNN: International Joint Conference on Neural Networks. 2007.

[15] LEWIS D. D. et RINGUETTE, M., «Comparison of two learning algorithms for text categorization», In Proceedings of the 3rd Annual Symposium on Document Analysis and Information Retrieval (SDAIR’94), pp. 81-93, 1994.

[16] LEWIS, D. D., «An Evaluation of Phrasal and Clustered Representations on a Text Categorization Task», ACM 15th Ann Int’l SIGIR’92, 1992, pp. 37-50, 1992.

[17] MORDIAN, M. et BAARANI, A. KNNBA: k-Nearest Neighbours Based Association Algorithm. University of Isfahan, Iran, 2009.

[18] PANG, B. et LEE, L. Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, 2(1-2):1–135, 2008.

[19] PURPURA, S. et HILLARD, D. Automated classification of congressional legislation. Proceedings of the international conference on Digital government research, pages 219–225, 2006.

[20] SALTON G. et BUCKLEY C., Term-weighting approaches in automatic text retrieval, Information Processing Management, pp. 513-523, 1988.

[21] SALTON G., Automatic processing of foreign language documents. Prentice-Hall, Englewood Cliffs, Nj, 1971.

[22] SCHAPIRE, R.; SINGER, Y.; et SINGHAL, A. Boosting and Rocchio applied to text filtering. In Proceedings of the 21st Annual International Conference on Research and Development in Information Retrieval, 1998.

[23] SCHÜTZE, H., HULL, D. A et PEDERSEN, J. O. A Comparison of Classifiers and Document Representations for the Routing Problem. Proceedings of the 18th Annual ACM SIGIR Conference, pp. 229--337, 1995.

[24] SCHMID H. Probabilistic part-of-speech tagging using decision trees In Proceedings of the International Conference on New Methods in Language Processing, pp. 44–49, 1994.

[25] SEBASTIANI, F., A tutorial on automated text categorisation, In Analia Amandi and Ricardo Zunino, editors, Proceedings of the 1st Argentinian Symposium on Artificial Intelligence (ASAI’99) pp. 7-35, 1999.

[26] SUOMELA, BP. et ANDRADE, MA. Ranking the whole MEDLINE database according to a large training set using text indexing. BMC Bioinformatics 6:75, 2005.

[27] QUNINLAN, J.R., «Induction of decision trees», Machine Learning, 1(1), pp. 81-106, 1986.

[28] VINCARELLI A., Indexation de documents manuscrits, In Proceedings du Colloque International Francophone sur l’Ecrit et le Document (CIFED06), pp. 49-53, 2006.

[29] WIENER, E., PEDERSEN, J. O. et WEIGEND, A. S.. A Neural Network Approach to Topic Spotting. Symposium on document analysis and information retrieval, pp. 317-332, 1995.

[30] YANG, Y. et CHUTE, C.G. An example based mapping method for text categorization and retrieval. ACM Trans. Inform. Syst., 12: 252-277, 1994.

[31] YANG Y. et LIU X., A reexamination of text categorization methods, In SIGIR, ACM, pp. 42-49, 1999.

[32] YIN L, XU G, TOTII M, NIU Z, MAISOG, JM., WU C, HU Z et, LIU H. Document classification for mining host pathogen protein-protein interactions. Artif. Intell. Med 49(3):155-160, 2010.