Das Teilprojekt MeWiKo-CAU hat im ersten Projektjahr für das Arbeitspaket 1.1 (Datenerhebung) untersucht, welche sozialen Netzwerke als Quelle für nutzergenerierte Inhalte infrage kommen (Meilenstein 1.5). Dafür wurde eine „Web of Science“-basierte Literaturrecherche durchgeführt, um herauszufinden, wie man effizient publikationsbezogene Daten aus sozialen Netzwerken im deutschen Sprachraum sammelt. Als Ergebnis dieser Literaturrecherche sind nach Abwägung von Vor- und Nachteilen die Netzwerke Facebook, Twitter und Reddit als forschungs- und projektrelevant zu berücksichtigen. Zusätzlich wurden nutzergenerierte Inhalte und Daten (Meilenstein 1.7) und sonstige, nicht von den anderen Meilensteinen abgedeckte Daten (Meilenstein 1.8) erhoben. Diese Ergebnisse wurden in weiterführenden statistischen Analysen ausgewertet (Meilenstein 1.12).

Die Zuordnung von Posts zu Publikationen stellt eine zentrale Herausforderung im Umgang mit webbasierten Daten dar. Um diesen Aspekt zu vereinfachen, wird für das Auffinden von Posts der Anbieter Altmetric.com genutzt. Um zusätzlich die Daten-Vollständigkeit der von Altmetric.com angebotenen Daten zu erhöhen, wurden Crossref Event Daten genutzt und der gesamte Daten-Pool mit Python-Webcrawlern validiert. Dieses Vorgehen ermöglicht es, dass aktuelle Studienerkenntnisse und von den Critical Friends bei der Statusveranstaltung in Berlin (30.-31.01.20) infrage gezogene zeitliche Stabilität der gefundenen Posts nicht zu einer Überschätzung der Aktivität führt. Die zeitliche Stabilität der Altmetrics ist in Kritik geraten, da nicht alle in die von den Altmetric-Anbietern angebotenen Zahlen eingehenden Nennungen wiedergefunden werden konnten. Dieser Fall kommt vor, wenn ein Nutzer zum Beispiel seinen Tweet nach der Zählung durch den Anbieter wieder löscht. Deswegen soll für jeden Post überprüft werden, ob dieser noch verfügbar ist. Zusätzlich zu den Daten aus sozialen Medien werden als Quellen für nutzergenerierte Inhalte Blog-Einträge, Wikipedia Einträge und Kommentare unter Nachrichten-Artikeln untersucht.

Die Datensammlung wird durch folgende Quellen gespeist:

  • Die Sammlung der Blog-Einträge geschieht über die WordPress-API, Altmetric.com und Mediacloud;
  • Die Sammlung von Wikipedia-Einträgen wird über Crossref Event Daten und Altmetric.com bewerkstelligt;
  • Die Sammlung von Kommentaren unter News-Artikeln wird durch Mediacloud und eine Reihe von selbst geschriebenen Python-Scrapern durchgeführt.

Die Sammlung dieser Daten führte zu folgenden Ergebnissen in Bezug auf die Abdeckung der vom Projektpartner SMC zur Verfügung gestellten identifizierbaren 1453 Publikationen:

  • Für 7,99 % der Publikationen konnte mindestens ein Blog-Post über WordPress, für 61,60 % mindestens ein Blog-Post über Altmetric.com und für 7,24 % mindestens ein Blog-Post über Mediacloud gefunden werden.
    • Die Rangkorrelationen zwischen den gefundenen Posts sind allerdings gering. Es liegt die Vermutung nahe, dass es sich um unterschiedliche Quellen-Abdeckungen handelt. Rangkorrelationen als Vergleichswerkzeug von Anbietern von Metriken bieten sich an, da das Ziel dieses Vergleiches ist, für jede Publikation in der Stichprobe die Abdeckung in beiden Quellen miteinander zu vergleichen. Eine perfekte Korrelation würde hier bedeuten, dass beide Anbieter für dieselben Publikationen eine proportional gleiche Menge an Einträgen führen;
  • Für insgesamt 23,60 % der Publikationen konnte mindestens eine Wikipedia-Zitation identifiziert werden. Dabei war auffällig, dass Crossref Event Daten eine deutlich bessere Abdeckung aufweisen, also wesentlich mehr Wikipedia-Zitate in Crossref als in den Daten von Altmetric hinterlegt waren;
  • Die Extraktion der Kommentare unter News-Medien erwies sich als wenig fruchtbar, insgesamt führten die Python-Scraper nur zu 17 Kommentaren unter 4 Artikeln. Diese niedrige Zahl lässt sich mit den wesentlich verschiedenen Layouts und Aufbau-Strategien der untersuchten Webseiten erklären. Individualisierte Python-Scraper sind notwendig, um validere Daten zu erhalten. Falls notwendig und bei vorhandenen Entwicklungskapazitäten wird die Entwicklung verbesserter individualisierter Python-Scraper in anderen Arbeitspaketen erfolgen.

Beim Vergleich der Abdeckung der Einträge in sozialen Medien dreht sich der bei den Wikipedia-Einträgen beobachtete Trend, dass Crossref weit mehr Einträge als Altmetric.com listet, um. Altmetric.com weist eine deutlich höhere Abdeckung von Facebook-, Reddit- und Twitter-Posts auf. Dabei muss aber erwähnt werden, dass für diese Analyse für Altmetric.com keine Aussage über die Verlässlichkeit der gefundenen Ergebnisse getroffen werden kann, da nur die aggregierten Fallzahlen zur Verfügung standen. Im Gegensatz zu den von Crossref Events gewonnenen Daten standen also keine Links zu den gezählten Posts zur Verfügung. Die Verfolgung dieser über Crossref Events gewonnenen Links ergab, dass 2,5 % der Tweets nicht mehr aufgefunden werden konnten. Dies führte dazu, dass für 36,49 % der betroffenen Publikationen mindestens einer der angegebenen Tweets nicht mehr gefunden werden konnte. Die oben genannten Probleme der zeitlichen Stabilität altmetrischer Daten durch die Critical Friends können also auch für unseren Datensatz und Crossref Events gezeigt werden. Die von Crossref Events angegebenen Reddit-Posts konnten hingegen vollständig wiedergefunden werden.

Schließlich wurden in Abstimmung mit dem Partner ZBW sonstige Daten (Meilenstein 1.8) erhoben. Diesen Ergebnissen wurden weiterführenden statistischen Analysen unterworfen (Meilenstein 1.12). Unter sonstigen Daten sind insbesondere temporäre Trends zu verstehen, die abseits von den erhobenen Werten zur Vorhersage von Publikationserfolg plausibel scheinen. Um diese zeitlichen Trendwerte zu erheben, wurde für jede der 1453 Publikationen die Anzahl der Google-Suchanfragen, der Artikel auf Mediacloud und der Artikel auf Mendeley mit den in dem Abstract der Publikation besprochenen Themen erhoben. Für 748 dieser Publikationen war das Vorgehen erfolgreich, der Rest musste ausgeschlossen werden, da kein Abstract zugänglich war.

Die Rangkorrelation nach Spearman zwischen den aus Google Trends und Mediacloud gewonnenen Trendwerten fiel dabei am höchsten aus, mit einem Wert von .517. Insgesamt waren die Trendwerte aber niedrig bis gar nicht mit Zitationen korreliert (siehe Tabelle 1). Die Korrelation zwischen Mediacloud und Google Trends kann als vorsichtiger Hinweis interpretiert werden, dass häufig bei Google gesuchte Themen wissenschaftlicher Publikationen auch diejenigen sind, über die viel in News-Medien berichtet wird. Eine in Zukunft zu klärende Frage ist also, ob eins der für einen Journalisten entscheidenden Kriterien zur Zitation einer wissenschaftlichen Publikation ist, dass dieses Thema gerade gesellschaftlich breit diskutiert wird.