Verfügbare Datensätze

Auf dieser Seite werden Datensätze aufgeführt, welche als Grundlage für Publikationen des DAI-Labors dienten. Alle Datensätze sind als Download verfügbar. Senden Sie dazu eine Email an corpora(at)dai-labor.de.

GerOM: Datensatz deutscher, Sentiment-annotierter Zitate

Der Datensatz besteht aus 851 Zitaten, die jeweils nach Type und Sentiment annotiert wurden. Der Datensatz wird im xml Format angeboten. Details des Datensatzes sind erklärt in: Ploch, D., Intelligent News Aggregator for German with Sentiment Analysis, in: Hopfgartner, F. (Ed.), Smart Information Systems, Advances in Computer Vision and Pattern Recognition. Springer International Publishing, pp. 5-46.
(http://www.dai-labor.de/publikationen/980)

GerSEN: Datensatz aus deutschen, Sentiment-annotierten Sätzen

Der Datensatz besteht aus 2,369 Sätzen, die aus Nachrichtenartikeln mit Bezug zu den Berliner Universitäten extrahiert wurden. Die Sätze sind in Hinsicht auf das Sentiment annotiert. Der Datensatz besteht aus einzelnen Text-Dateien. Details des Datensatzes, zum Erstellungsprozess und der Klassenverteilung sind im folgenden Report erklärt:
Bütow, F., Lommatzsch, A., Ploch, D.: Creation of a German Corpus for Internet News Sentiment Analysis. Project report, Berlin Institute of Technology, AOT (2016) 
(http://www.dai-labor.de/publikationen/1090)

GerNED: Deutscher NED Datensatz

Der GerNED Datensatz enthält Ressourcen für die Evaluation deutschsprachiger Named Entity Disambiguation (NED) Systeme. Die Aufgabe von NED ist es, Eigennamen von Personen, Orten oder Organisationen in Texten eindeutig einer Wissensbasis zuzuordnen oder zu erkennen, dass die Eigennamen keinen entsprechenden Eintrag in der Wissensbasis besitzen.

Der Datensatz besteht aus über 2400 annotierten Namen, die in einem großen Korpus deutschsprachiger Nachrichten gefunden und einer aus Wikipedia erstellten Wissensbasis zugeordnet wurden. Die entsprechenden Nachrichten und die Wissensbasis (deutscher Wikipedia-Dump) sind ebenfalls Teil des Datensatzes.

Eine Beschreibung und Analyse des vollständigen Datensatzes findet sich in:

GerNED: A German Corpus for Named Entity Disambiguation. Danuta Ploch, Leonhard Hennig, Angelina Duka, Ernesto William De Luca and Sahin Albayrak In: Proceedings of the 8th International Conference on Language Resources and Evaluation; 2012 [pdf]

plista News Recommendation Datensatz

Im Rahmen der ACM RecSys 2013 News Recommender Systems Challenge haben wir einen Datensatz bestehend aus 84 Benutzerinteraktionen veröffentlicht, welcher von plista innerhalb eines Monats aufgezeichnet wurde. 

Eine Beschreibung und Analyse des vollständigen Datensatzes findet sich in:

The plista Dataset Benjamin Kille, Frank Hopfgartner, Torben Brodt, Tobias Heintz. In Proc. News Recommendation Workshop and Challenge, ACM ICPS, 10 2013.

Delicious

Dieser Datensatz enthält alle öffentlichen Bookmarks von etwa 950.000 Nutzern des Delicious social bookmarking Dienstes. Der Download fand zwischen Dezember 2007 und April 2008 statt und resultierte in rund 132 Millionen Bookmarks bzw. 420 Millionen Tag-Assignments. Es wurde kein Spam-Filtering durchgeführt! Benutzernamen wurden aus Datenschutzgründen anonymisiert. Der Datensatz ist komprimiert 7GB groß.

Eine Beschreibung und Analyse des vollständigen Datensatzes findet sich in:

Analyzing social bookmarking systems: A del.icio.us cookbook. Robert Wetzker, Carsten Zimmermann, and Christian Bauckhage. In Mining Social Data (MSoDa) Workshop Proceedings, pp. 26–30. ECAI 2008, (July 2008). [pdf]

The Slashdot Zoo

Dieser Datensatz repräsentiert das soziale Netzwerk der Technologie-News-Webseite slashdot.org. Das Netzwerk enthält 78.000 Benutzer und 510.000 Beziehungen der Typen ''friend'' und ''foe''. Der Datensatz wurde zwischen Mai 2008 und Februar 2009 extrahiert und enthält lediglich die große Zusammenhangskomponente, in der sich der Benutzer CmdrTaco befindet (Rob Malda, Moderator und Gründer von Slashdot). Die Relationstypen Freund und Feind entsprechen positiven und negativen Bewertungen.

Eine Analyse des Datensatzes wurde auf der WWW 2009 präsentiert:

The Slashdot Zoo:  Mining a Social Network with Negative Edges.  Jérôme Kunegis, Andreas Lommatzsch, and Christian Bauckhage. In Proceedings of the International World Wide Web Conference, pp. 741–750, 2009. [pdf]

DUC 2007 Dokumentpaar-Topic-Annotationen

Dieser Datensatz enthält Annotationen zu 11 aus dem DUC 2007 Multi-Document Summarization Datensatz entnommenen Dokumentpaaren. In den Dokumentpaaren wurden von 3 Annotatoren semantisch ähnliche Satz(-teile) identifiziert, die in etwa "Fakten" entsprechen. Ziel der Analyse war die Identifikation von kopierten, sehr ähnlichen, semantisch ähnlichen Satz(-teilen), die in beiden Dokumenten des Paares auftauchen, möglicherweise in andere Wortwahl, Wortstellung, oder der Verwendung von Synonymen und Paraphrasen. Der Datensatz ist 250KB groß, und enthält nur die Annotationen, nicht die Quelldokumente. Diese müssen aus rechtlichen Gründen separat von http://www-nlpir.nist.gov/projects/duc/data.html heruntergeladen werden. 

Eine Beschreibung des Annotationsprozesses und eine Analyse der Annotationen findet sich in:

Identifying Sentence-Level Semantic Content Units with Topic Models. Leonhard Hennig, Thomas Strecker, Sascha Narr, Ernesto William De Luca, Sahin Albayrak. In 7th International Workshop on Text-based Information Retrieval (TIR'10), DEXA 2010 . [pdf]

Annotierter Twitter Sentiment Datensatz

Dieser Datensatz enthält Tweets deren Sentiment (Gefühlslage) von Mechanical Turk Benutzern annotiert wurde. Enthalten sind 12597 Tweets in 4 Sprachen: Englisch, Deutsch, Französisch und Portugiesisch und jeder Tweet wurde von 3 verschiedenen Benutzern annotiert. Die annotierten Labels sind positiv, negativ, neutral und n/a.

Eine Beschreibung des vollständigen Datensatzes findet sich in:

Language-Independent Twitter Sentiment Analysis. Sascha Narr, Michael Hülfenhaus and Sahin Albayrak. In Knowledge Discovery and Machine Learning (KDML), LWA (2012). [pdf]