Résumé de la thèse

Analyse sémantique des adverbiaux de localisation temporelle :
application à la recherche d’information et à l’acquisition de connaissances

PDF disponible sur HAL

Thèse CIFRE
Laboratoire MoDyCo
Entreprise Mondeca
Sous la direction de Jean-Luc Minel et Delphine Battistelli
Soutenue le 22 novembre 2012

Ces travaux abordent la question de l’accès aux textes numériques, en particulier de l’accès à leur « contenu informationnel », vu sous l’angle de l’ancrage temporel. Conciliant une approche linguistique et une approche applicative, ils visent à contribuer à l’élaboration de nouveaux outils pour la fouille de textes, la recherche d’information et la gestion des connaissances – nouveaux outils en mesure de tirer parti de la sémantique des informations relatives au repérage temporel exprimées dans les textes. Il s’agit ainsi à la fois de mettre en œuvre des systèmes d’interaction avec les utilisateurs et de parvenir à modéliser la sémantique des unités textuelles qui contribuent de façon saillante à l’ancrage dans le temps des situations décrites dans les textes : les adverbiaux de localisation temporelle.

La représentation formelle que l’on en propose, qui procède d’une analyse linguistique, les décrit sous la forme d’une succession d’opérations sémantiques. Cette représentation permet de pouvoir décrire des informations présentant un certain degré d’indétermination sans en fermer l’interprétation (« jusque vers la fin des années 30 »). Elle permet également d’exprimer des informations en intension (« de février à août, tous les jours sauf le dimanche, de 10h à 19h »). Cette représentation est donc plus expressive que les modèles généralement utilisés en ingénierie des connaissances – modèles qui le plus souvent représentent un repère temporel sous la forme d’une date ou d’un intervalle de dates.

Articulant notre proposition de modélisation avec les modèles standards des intervalles de dates, nous montrons qu’il devient possible d’élaborer de nouveaux systèmes de recherche d’information, susceptibles de traiter des requêtes associant un critère calendaire avec un ensemble de mots-clés, telles que « les universités au début du XIIe siècle » ou « le vote des femmes depuis 1900 », par exemple. S’appuyant sur les outils développés en ce sens, on montre qu’il devient également possible d’interagir avec des données structurées décrivant des informations temporelles, à la fois pour les interroger et pour les enrichir de façon semi-automatique, afin, par exemple, de constituer des bases de connaissances.

Rapporteurs
– Adeline Nazarenko, Pr. des Univ., Univ. Paris Nord, Présidente du jury
– Nathalie Aussenac-Gilles, Directrice de recherche, IRIT (CNRS)
Examinateurs
– Guy Lapalme, Pr. des Univ., Univ. de Montréal (Canada)
– Maarten de Rijke, Pr. des Univ., Universiteit van Amsterdam (Pays-Bas)
– Florence Amardeilh, Dir. du dép. Recherche, entreprise Mondeca