DUC 2007 Dokumentpaar-Topic-Annotationen
Dieser Datensatz enthält Annotationen zu 11 aus dem DUC 2007 Multi-Document Summarization Datensatz entnommenen Dokumentpaaren. In den Dokumentpaaren wurden von 3 Annotatoren semantisch ähnliche Satz(-teile) identifiziert, die in etwa "Fakten" entsprechen. Ziel der Analyse war die Identifikation von kopierten, sehr ähnlichen, semantisch ähnlichen Satz(-teilen), die in beiden Dokumenten des Paares auftauchen, möglicherweise in andere Wortwahl, Wortstellung, oder der Verwendung von Synonymen und Paraphrasen. Der Datensatz ist 250KB groß, und enthält nur die Annotationen, nicht die Quelldokumente. Diese müssen aus rechtlichen Gründen separat von http://www-nlpir.nist.gov/projects/duc/data.html heruntergeladen werden.
Eine Beschreibung des Annotationsprozesses und eine Analyse der Annotationen findet sich in:
Identifying Sentence-Level Semantic Content Units with Topic Models. Leonhard Hennig, Thomas Strecker, Sascha Narr, Ernesto William De Luca, Sahin Albayrak. In 7th International Workshop on Text-based Information Retrieval (TIR'10), DEXA 2010 . [pdf]






