Informationsextraktion

KontaktDanuta PlochMichael Meder

 

Die Arbeitsgruppe "Information Extraction" forscht an der Entwicklung von Verfahren und Werkzeugen zur Unterstützung von Daten- und Informationsdiensten. Dazu gehören die intelligente Sammlung von Inhalten, die Anreicherung der Inhalte mit semantischen Informationen und Meta-Daten und die Abbildung der Beziehungen zwischen den extrahierten Inhalten. Die extrahierten Inhalte können in einem weiteren Schritt validiert und miteinander in Beziehung gesetzt werden. 

Im Rahmen dieser Themengebiete legt das CC IRML den Schwerpunkt auf die Disambiguierung mehrdeutiger benannter Entitäten und die intelligente Sammlung von Daten aus dynamischen Webseiten

Disambiguierung (Named Entity Disambiguation): Die Disambiguierung benannter Entitäten beschäftigt sich mit dem Problem der Mehrdeutigkeit von Namen: Es gibt zum Beispiel mehr als 60 Orte auf der Welt, die San José heißen, selbst wenn man Universitäten, Inseln oder Musikbands nicht mitzählt. Es geht also darum, mittels des Dokumentkontexts den wirklichen Referenten eines Orts-, Personen- oder Firmennamens zu erkennen. Herauszufinden, auf welche Entität der realen Welt sich ein Dokument (oder eine Suchanfrage eines Nutzers) bezieht, ist ein wichtiger Schritt in Richtung einer wirklichen semantischen Repräsentation von Wissen.

Intelligent Spidering: Eine automatische Durchsuchung des Internets ermöglicht der „Smart Spider“. In einem Spider-Prozess wird, zusätzlich zur traditionellen Inhaltsanalyse, eine visuelle Strukturanalyse der besuchten Webseiten vorgenommen. Stabile visuelle und inhaltliche Strukturen werden dabei identifiziert und durch Training von Klassifikatoren wird eine Abbildung der Strukturen auf vordefinierte Inhaltstypen erlernt.