Unsere Methodik
Bereits 2014 hat CORRECTIV zum ersten Mal eine Spendengerichte-Datenbank veröffentlicht und diese über die Jahre mehrmals aktualisiert und über fragwürdige Zuweisungen berichtet. In diesem Artikel beschreiben wir die Methodik von damals.
Für den Relaunch im Februar 2023 haben wir in allen Bundesländern Presseanfragen zu Geldauflagen aus eingestellten Strafverfahren in den Jahren 2017 bis 2021 gestellt. Da die Daten in jedem Bundesland unterschiedlich dokumentiert sind, waren die Adressaten sehr unterschiedlich: Teilweise gingen die Anfragen zentral an das Justizministerium des Landes, teilweise direkt an Staatsanwaltschaften oder Oberlandesgerichte.
Dementsprechend unterschiedlich waren auch die Antworten (Stand 6.2.2023): Elf Bundesländer haben uns die Daten als PDF-Dateien geschickt, manchmal wurden diese offensichtlich zuvor ausgedruckt und dann wieder eingescannt. Von vier anderen haben wir die Daten als Excel-Dateien bekommen. In Baden-Württemberg haben wir nur vom Amtsgericht Baden-Baden die Beträge von begünstigten Vereinen und Einrichtungen erhalten und das auch nur für den Zeitraum 2018 bis 2021.
Im nächsten Schritt haben wir die Daten aus mehr als 2.500 Seiten PDF-Dokumenten extrahiert. Jedes Bundesland hatte seine Daten jeweils anders formatiert und manchmal gab es auch Fehler in den Stammdaten, z. B. fehlende Reihen oder falsch formatierte Werte. Die Tiefe der Daten hängt auch vom Bundesland ab. Zwei Beispiele: In Bayern gibt es gar keine Informationen darüber, welches Gericht die Mittel verteilt hat. Im Gegensatz dazu werden in Niedersachsen alle Amtsgerichte, Landgerichte sowie die Staatsanwaltschaft genannt.
Um zu überprüfen, ob wir alle Daten korrekt befreit haben, haben wir die Gesamtsummen der extrahierten Daten mit den Gesamtsummen in den PDFs, sofern ein Bundesland sie angegeben hatte, verglichen. Nur in Brandenburg stimmten die Gesamtsummen nicht überein, für Mecklenburg-Vorpommern waren keine Gesamtsummen verfügbar, auch nach einer Rückfrage. Zusätzlich haben wir in allen Bundesländer die Daten stichprobenartig geprüft und dabei extrahierte Informationen mit den Angaben in den Quelldokumenten verglichen.
In einem parallelen Schritt haben wir die neuen Daten mit den Informationen aus der früheren Spendengerichte-Datenbank zusammengeführt, in der bereits Angaben für die Jahre 2007 bis 2016 enthalten waren.
Die größte Herausforderung war die Deduplizierung der Empfänger. In den Quelldaten tauchen sie in unterschiedlichen Schreibweisen auf, manchmal mit, manchmal ohne Adresse. Oder mit unterschiedlichen Adressen. Wir haben die Empfänger in drei Schritten zusammengeführt: Zunächst durch maschinelle Namensangleichungen sehr ähnlich lautender Namen, und dann über ein Machine-Learning Model, das basierend auf Namen und Adressen Empfänger dedupliziert. Diesen Algorithmus haben wir sehr konservativ eingestellt, sodass nicht aus Versehen unterschiedliche Organisationen zusammengefasst werden. Wir wollten zum Beispiel vermeiden, dass große Organisationen mit regionalen Gruppierungen zusammengeführt werden. Deshalb haben wir in einem dritten Schritt weitere Deduplizierungs-Kandidaten händisch überprüft und entschieden, ob es sich jeweils um den gleichen oder zwei unterschiedliche Empfänger handelt. Dabei geholfen haben auch Abgleiche mit anderen Datensätzen wie dem Handelsregister (u.a. OpenCoporates) und der Lei-Identifier Datenbank.
Dennoch bleiben viele Empfänger übrig, die auf den ersten, menschlichen Blick zusammengehören, auch wenn eine Maschine entschieden hat, dass es sich um unterschiedliche Organisationen handelt. Andersherum können falsche Deduplizierungen bei den rund 50.000 Empfängern nicht ausgeschlossen werden. Zudem war es uns bei zahlreichen Einrichtungen und Vereinen nicht möglich den genauen Sitz der Organisation auszulesen, sodass insbesondere die Suche nach Städten nicht vollständig ist und immer nur Beispiele von Förderungen zeigt.
Aufgrund dieser Einschränkungen und der unterschiedlichen Datenqualität ist es generell sinnvoll, unsere Zahlen und Aggregationen als Mindestwerte zu betrachten. Wenn Sie einen Fehler entdecken, können Sie ihn unter justizgelder[at]correctiv.org melden.