Verfügbare Datensätze
Auf dieser Seite werden Datensätze aufgeführt, welche als Grundlage für Publikationen des DAI-Labors dienten. Alle Datensätze sind als Download verfügbar. Senden Sie dazu eine Email an corpora@dai-labor.de.
Delicious
Dieser Datensatz enthält alle öffentlichen Bookmarks von etwa 950.000 Nutzern des Delicious social bookmarking Dienstes. Der Download fand zwischen Dezember 2007 und April 2008 statt und resultierte in rund 132 Millionen Bookmarks bzw. 420 Millionen Tag-Assignments. Es wurde kein Spam-Filtering durchgeführt! Benutzernamen wurden aus Datenschutzgründen anonymisiert. Der Datensatz ist komprimiert 7GB groß.
Eine Beschreibung und Analyse des vollständigen Datensatzes findet sich in:
Analyzing social bookmarking systems: A del.icio.us cookbook. Robert Wetzker, Carsten Zimmermann, and Christian Bauckhage. In Mining Social Data (MSoDa) Workshop Proceedings, pp. 26–30. ECAI 2008, (July 2008). [pdf]
The Slashdot Zoo
Dieser Datensatz repräsentiert das soziale Netzwerk der Technologie-News-Webseite slashdot.org. Das Netzwerk enthält 78.000 Benutzer und 510.000 Beziehungen der Typen ''friend'' und ''foe''. Der Datensatz wurde zwischen Mai 2008 und Februar 2009 extrahiert und enthält lediglich die große Zusammenhangskomponente, in der sich der Benutzer CmdrTaco befindet (Rob Malda, Moderator und Gründer von Slashdot). Die Relationstypen Freund und Feind entsprechen positiven und negativen Bewertungen.
Eine Analyse des Datensatzes wurde auf der WWW 2009 präsentiert:
The Slashdot Zoo: Mining a Social Network with Negative Edges. Jérôme Kunegis, Andreas Lommatzsch, and Christian Bauckhage. In Proceedings of the International World Wide Web Conference, pp. 741–750, 2009. [pdf]
DUC 2007 Dokumentpaar-Topic-Annotationen
Dieser Datensatz enthält Annotationen zu 11 aus dem DUC 2007 Multi-Document Summarization Datensatz entnommenen Dokumentpaaren. In den Dokumentpaaren wurden von 3 Annotatoren semantisch ähnliche Satz(-teile) identifiziert, die in etwa "Fakten" entsprechen. Ziel der Analyse war die Identifikation von kopierten, sehr ähnlichen, semantisch ähnlichen Satz(-teilen), die in beiden Dokumenten des Paares auftauchen, möglicherweise in andere Wortwahl, Wortstellung, oder der Verwendung von Synonymen und Paraphrasen. Der Datensatz ist 250KB groß, und enthält nur die Annotationen, nicht die Quelldokumente. Diese müssen aus rechtlichen Gründen separat von http://www-nlpir.nist.gov/projects/duc/data.html heruntergeladen werden.
Eine Beschreibung des Annotationsprozesses und eine Analyse der Annotationen findet sich in:
Identifying Sentence-Level Semantic Content Units with Topic Models. Leonhard Hennig, Thomas Strecker, Sascha Narr, Ernesto William De Luca, Sahin Albayrak. In 7th International Workshop on Text-based Information Retrieval (TIR'10), DEXA 2010 . [pdf]






