Cette page introduit des essais d'identification de documents ISTEX sur la thématique du cirque. Plus précisément, ce serveur a été mis en place pour aider au repérage d'un ensemble significatifs de documents caractéristiques de recherche entre les arts du cirque et les sciences.

La thématique du cirque présente des difficultés d'extraction. Nous présentons ici deux exemples.

Plateforme CircusV2

Après un essai peu satisfaisant montré plus loin, nous avons opté pour une requête large en laissant aux algorithmes fourni par Elastisearch le soin de trier les documents.

Plus précisément la requête

"barnum circus arts circuses cirque performing medrano clown danc* juggler*"

sélectionne plus d'un million de documents.

Le serveur ci-dessous a été monté avec les 2000 premiers.




Le corpus contient 2000 documents ISTEX.

Projections géographiques

Périodiques concernés

Cette liste a été obtenue par traitement automatique (voir la page de discussion).

Exemples de résultats

Revues au cœur de la thématique Arts et sciences
Articles dans des revues à caractère scientifique

Aspects techniques

Plateforme CircusV1

Dans un premier temps, nous avions opté pour une stratégie booléenne avec la requête suivante.

"(circus AND (performing OR barnum OR medrano OR clown OR danc*)) OR slacklin*"

Avec 4849 documents, elle a simplement servi à donner un ordre de grandeur de la volumétrie du sujet. En effet, ce corpus comporte trop de bruitage par rapport à la problématique pour être exploitable.




Le corpus contient 4849 documents ISTEX.
Projections géographiques

Aspects techniques