Legal:Richtlinie zur Veröffentlichung von Daten

This page is a translated version of the page Legal:Data publication guidelines and the translation is 100% complete.

Das Recht auf Privatsphäre ist der Kern dessen, wie Gemeinschaften zu Wikimedia-Projekten beitragen, und die Wahrung dieses Rechts ist von zentraler Bedeutung für unsere Menschenrechtsverpflichtungen. Diese Richtlinien zur Datenveröffentlichung sind die bewährten Vorgehensweisen der Wikimedia Foundation zum Risikomanagement bei der Datenveröffentlichung. Sie ergänzen unsere Richtlinien zur Datenspeicherung und tragen zu unserer Verpflichtung bei, Benutzerdaten zu schützen, wie in unserer Datenschutzrichtlinie dargelegt.

Ähnliche Richtlinien zur Datensammlung sind in Vorbereitung, um den gesamten Lebenszyklus der Daten in den Systemen der Wikimedia Foundation umfassender zu regeln.

Risikoabstufungstabelle für die Veröffentlichung von Daten

Datenklassifizierung	Vertraulich	Beschränkt
Risikostufe	Stufe 1: Hohes Risiko	Stufe 2: Mittleres Risiko	Stufe 3: Niedriges Risiko
Risikostufe	Daten, die mit Sicherheit dazu verwendet werden könnten, Schaden anzurichten	Daten, die wahrscheinlich oder möglicherweise dazu verwendet werden könnten, Schaden anzurichten	Daten, die wahrscheinlich nicht dazu verwendet werden könnten, Schaden anzurichten oder die aus administrativen Gründen privat sind
Beispiele (unvollständig)	Daten, die PII enthalten siehe Datenklassifizierungsrichtlinie und Datenschutzrichtlinie Detaillierte Analysen von Ländern der Länderschutzliste Daten zur Spendensammlung Regelmäßige Veröffentlichungen von Daten mit mittlerem Risiko	Hochrangige Analysen von Ländern der Länderschutzliste Daten zur Spendensammlung Detailliertere Analysen von Ländern, die nicht auf der Länderschutzliste aufgeführt sind Projekten Bearbeitungsdaten Interaktionsdaten Lesedaten Regelmäßige Veröffentlichung von Daten mit geringem Risiko	Hochrangige Analysen von Ländern, die nicht auf der Länderschutzliste aufgeführt sind Projekten Bearbeitungsdaten Interaktionsdaten Lesedaten Alle Analysen, die differentielle Privatsphäre nutzen^[1] Zusammenstellungen und Kombinationen bereits öffentlicher Daten, auf die externe Parteien möglicherweise nur schwer / umständlich zugreifen können
Vorgesehene Antwortzeit	3 Arbeitswochen	5 Arbeitstage	N/A
Erwartete % der Anfragen (interne Statistik)	15%	35%	50%
Was dies für Teams der Wikimedia Foundation bedeutet
Folgende Aktionen	Lade diese Daten nicht auf Server hoch, die nicht zur Wikimedia Foundation gehören Lösche Ausgaben, bevor du den Code übermittelst, auch in privaten Gitlab-Repos Legal und Security werden die Veröffentlichung von Hochrisikodaten nach Prüfung und Risikominderung von Fall zu Fall prüfen	Nicht bereinigte Daten können auf private Server außerhalb der Wikimedia Foundation hochgeladen werden (private Gitlab-Repos, Slack, Drive, etc.) Bereinigte Daten gelten als risikoarm und können auf öffentliche Server außerhalb der Wikimedia Foundation hochgeladen werden (Gitlab, Präsentationen, Mailinglisten, etc.). Bei der Datenbereinigung werden Löschung aller Ausgaben, die Rohdaten anzeigen Herausfilterung oder Verschleierung detaillierter Analysen, wie in der nachstehenden Schwellenwerttabelle definiert Legal und Security werden die Veröffentlichung von Daten mit mittlerem Risiko nach Prüfung und Risikominderung von Fall zu Fall prüfen	Diese Daten können auf öffentliche Server außerhalb der Wikimedia Foundation hochgeladen werden (Gitlab, Präsentationen, Mailinglisten, etc.)

Hinweis: Die Länderschutzliste dient als Referenzhandbuch für Länder, die möglicherweise eine Gefahr für die Internetfreiheit darstellen und ist kein Indikator für die Arbeitsbeziehungen der Foundation mit den einzelnen Ländern

Häufig gestellte Fragen

F: Wofür wird die Risikoabstufungstabelle verwendet? Die Risikoabstufungstabelle soll den Teams der Wikimedia Foundation, die mit Daten arbeiten, dabei helfen, zu erkennen, wann ihre Arbeit einer Datenschutzprüfung durch Legal und Security bedarf.
F: Welche Hauptrisiken werden von der Abstufungstabelle gemessen? Die Hauptrisiken liegen sowohl in der Über- als auch in der Unternutzung des Spektrums. Wenn dies so genutzt wird, dass zu viele Dinge an Legal und Security weitergeleitet werden, werden Legal und Security zum Engpass für den erforderlichen Arbeitsablauf. Wenn andererseits Projekte live gehen, die im Rahmen einer Datenschutzprüfung gestoppt oder gemildert worden wären, setzt dies die Foundation Datenschutzrisiken aus — darunter Reputations-, Rechts- und Sicherheitsrisiken.
F: Wer sind die Zielgruppen der Abstufungstabelle? Teams, die in den Bereichen Produkt und Technik mit Daten arbeiten.
F: Was hat sich gegenüber dem bestehenden Risikoprüfungsprozess geändert? Der bestehende Prüfungsprozess erforderte, dass jedes einzelne Schema und Datenprojekt einer rechtlichen Prüfung unterzogen wurde. Dies wurde nicht befolgt und war weder für die Datenteams noch für Legal praktikabel.
F: Wie erfolgt die Aktualisierung der Abstufungstabelle oder die Lösung von Unstimmigkeiten bei der Abstufung?
- Einholung einer Datenschutzgenehmigung
- Jeder kann eine Aktualisierung/Änderung initiieren, aber vor der Umsetzung muss eine Genehmigung vom Kuratorium eingeholt werden
- Laufendes Feedback unmittelbar nach der Einführung, danach regelmäßige Neukalibrierung (beispielsweise jedes Quartal oder Halbjahr)
F: Was soll ich tun, wenn ich mir nicht sicher bin, ob ich mich an die Teams Legal und Security wenden soll? Im Zweifelsfall ist es besser, auf Nummer sicher zu gehen und eine L3SC-Anfrage einzureichen.

Schwellenwerttabelle

Verwende diese Tabelle, um zu bestimmen, ob deine Analyse detailliert oder hochrangig ist, und um zu erfahren, in welche Abstufung/Risikostufe die Analyse einzuordnen ist. Hinweis: Schwellenwerte werden ausschließlich auf Grundlage der veröffentlichten Statistiken bestimmt — d. h. wenn du nur Informationen zu Bearbeitungen veröffentlichst, musst du nicht berücksichtigen, wie viele Autoren die Bearbeitungen vorgenommen haben.

Typ der Dateneinheit	Klassifizierung der Analyse basierend auf Zählungen
Typ der Dateneinheit	"Detailliert"	"Hochrangig"
Benutzer (einschließlich eindeutiger Geräte)	<25	≥25
Bearbeitungen	<50	≥50
App-Interaktionen	<100	≥100
Aufrufe	<250	≥250

Bei Zurücksetzungen wird die Rate und eine ungefähre Gesamtzahl gemeldet, wenn die Anzahl der zurückgesetzten Bearbeitungen oder die Gesamtanzahl der Bearbeitungen unter dem Schwellenwert liegt. Beispiel:

Wenn 8 von 49 Änderungen zurückgesetzt wurden:
- "16,3 % zurückgesetzt (von <50 Änderungen)"
Wenn 48 von 49 Änderungen zurückgesetzt wurden:
- "100 % zurückgesetzt (von <50 Änderungen)"
Wenn 20 von 580 Änderungen zurückgesetzt wurden:
- "3,4 % zurückgesetzt (von ~600 Änderungen)"
- "3,4 % zurückgesetzt (von >500 Änderungen)"
Wenn 50 von 50 Änderungen zurückgesetzt wurden:
- Kann so belassen werden (beide Zahlen erreichen den Schwellenwert)

Diese Anleitung gilt auch für die Meldung von Prozentwerten unterhalb des Schwellenwerts für andere Datentypen.

Checkliste zur Risikominderung der Veröffentlichung

Diese Checkliste zur Selbstprüfung soll Datenwissenschaftlern und -analysten dabei helfen, das Risiko einer Datenveröffentlichung mit hohem oder mittlerem Risiko zu senken und die unbeabsichtigte Offenlegung privater Informationen zu reduzieren.

Hast du, bevor du Daten veröffentlichst (was auch das Hochladen eines Notebooks auf Gerrit oder Gitlab einschließt),

Diese Datenveröffentlichung in das Protokollformular für Datenveröffentlichungen eingetragen?
Ausgaben gelöscht, die Rohdaten zeigen?
Ausgaben gelöscht, die detaillierte Daten zeigen (wie in der Schwellenwerttabelle oben definiert)?
Zeilen verschleiert, die detaillierte Daten zeigen? Beispiel:

Python

R

# stell dir vor, wir führen eine Analyse der Anzahl der *Benutzer* durch, um eine Funktion auszuprobieren

# Konstanten setzen
threshold = 25
col = "num_users"

# Zeilen verschleiern
df.loc[df[col] < threshold, col] = f'<{threshold}'

library(tidyverse)
library(glue)

# {{tunit|69|set constants}}
threshold <- 25

df <- df |>
  mutate(num_users = ifelse(num_users < threshold, glue("<{threshold}"), num_users))

Zeilen herausgefiltert, die detaillierte Daten zeigen? Beispiel:

Python

R

# stell dir vor, wir führen eine Analyse der *App-Interaktionen* durch, die Benutzer durchgeführt haben

# {{tunit|69|set constants}}
threshold = 100
col = "num_interactions"

# Zeilen unterhalb des Schwellenwerts herausfiltern
df = df[df[col] >= threshold]

library(tidyverse)

# {{tunit|69|set constants}}
threshold <- 100

df <- df |>
  filter(num_interactions >= threshold)

Allgemeine Risikoheuristik

Im Folgenden bedeutet "X > Y > Z", dass X riskanter ist als Y, das wiederum riskanter ist als Z.

Datentyp:
- Geographie:
  - Stadt > (subnationale) Region > Land > Subkontinent > Kontinent > global
  - Länderschutzliste > nicht auf der Länderschutzliste
- Gerätedetails:
  - User-Agent > Browser- oder OS-Typ > Gerätetyp
  - IP > teilweise redigierter IP-Bereich
- Zeitlich:
  - Uhrzeit > Stunde > Tag > Monat
- Kombinationen mehrerer Schlüssel > beliebiger Schlüssel allein (z. B. Land + Projekt > Land oder Projekt)
Typ der Benutzeraktivität:
- Spendensammlungsaktivität > Bearbeitungsaktivität > Interaktionsaktivität > Leseaktivität
Aktivitätstyp der Wikimedia Foundation:
- Datensammlung > Datenanalyse
- Detaillierte Analyse > hochrangige Analyse

Kontaktiere uns

Wenn du der Meinung bist, dass möglicherweise gegen diese Richtlinien verstoßen wurde, oder wenn du Fragen oder Kommentare zur Einhaltung der Richtlinien hast, kontaktiere uns bitte unter privacy wikimedia.org.

Bemerkungen

↑ Dieser Prozess erfordert die Hilfe eines Spezialisten, um sicherzustellen, dass der DP-Algorithmus richtig konfiguriert ist, sowie eine ausreichende Dokumentation.

[1] Dieser Prozess erfordert die Hilfe eines Spezialisten, um sicherzustellen, dass der DP-Algorithmus richtig konfiguriert ist, sowie eine ausreichende Dokumentation.

[1]