Informationsextraktion
Kontakt: Danuta Ploch, Michael Meder |
Die Arbeitsgruppe "Information Extraction" forscht an der Entwicklung von Verfahren und Werkzeugen zur Unterstützung von Daten- und Informationsdiensten. Dazu gehören die intelligente Sammlung von Inhalten, die Anreicherung der Inhalte mit semantischen Informationen und Meta-Daten und die Abbildung der Beziehungen zwischen den extrahierten Inhalten. Die extrahierten Inhalte können in einem weiteren Schritt validiert und miteinander in Beziehung gesetzt werden.
Im Rahmen dieser Themengebiete legt das CC IRML den Schwerpunkt auf die Disambiguierung mehrdeutiger benannter Entitäten und die intelligente Sammlung von Daten aus dynamischen Webseiten
Disambiguierung (Named Entity Disambiguation): Die Disambiguierung benannter Entitäten beschäftigt sich mit dem Problem der Mehrdeutigkeit von Namen: Es gibt zum Beispiel mehr als 60 Orte auf der Welt, die San José heißen, selbst wenn man Universitäten, Inseln oder Musikbands nicht mitzählt. Es geht also darum, mittels des Dokumentkontexts den wirklichen Referenten eines Orts-, Personen- oder Firmennamens zu erkennen. Herauszufinden, auf welche Entität der realen Welt sich ein Dokument (oder eine Suchanfrage eines Nutzers) bezieht, ist ein wichtiger Schritt in Richtung einer wirklichen semantischen Repräsentation von Wissen.
- Ansprechpartner: Danuta Ploch
Intelligent Spidering: Eine automatische Durchsuchung des Internets ermöglicht der „Smart Spider“. In einem Spider-Prozess wird, zusätzlich zur traditionellen Inhaltsanalyse, eine visuelle Strukturanalyse der besuchten Webseiten vorgenommen. Stabile visuelle und inhaltliche Strukturen werden dabei identifiziert und durch Training von Klassifikatoren wird eine Abbildung der Strukturen auf vordefinierte Inhaltstypen erlernt.
- Ansprechpartner: Michael Meder