Právní:Pokyny pro zveřejňování údajů

This page is a translated version of the page Legal:Data publication guidelines and the translation is 96% complete.

Právo na soukromí je jádrem toho, jak komunity přispívají k projektům Wikimedie, a dodržování tohoto práva je zásadní pro naše závazky v oblasti lidských práv. Tyto pokyny pro zveřejňování dat jsou nejlepšími postupy Wikimedia Foundation pro řízení rizik při zveřejňování dat. Doplňují naše pokyny pro uchovávání údajů a přispívají k našemu závazku chránit data uživatelů, jak je rozpracováno v našich zásadách ochrany osobních údajů.

Připravují se podobné pokyny týkající se shromažďování dat, aby bylo možné lépe řídit celý životní cyklus dat v systémech Wikimedia Foundation.

Tabulka odstupňování rizik zveřejnění dat

Klasifikace dat Důvěrné Omezené
Úroveň rizika Úroveň 1: Vysoké riziko Úroveň 2: Střední riziko Úroveň 3: Nízké riziko
Data, která by určitě mohla být použita ke způsobení škody Data, která by mohla být pravděpodobně nebo možná použita ke způsobení škody Údaje, u kterých je nepravděpodobné, že budou použity ke způsobení škody, nebo jsou soukromé z administrativních důvodů
Příklady (neúplný seznam)

Data containing PII

High-level analyses of

  • Granulární analýzy
    • Ne-země na seznamu chráněných zemí
    • Projekty
    • Editace dat
    • Údaje o interakci
    • Čtení dat
  • Opakované zveřejňování dat s nízkým rizikem

High-level analyses of

    • non-country protection list countries
    • projects
    • editing data
    • interaction data
    • reading data
  • Jakékoli analýzy, které využívají diferenční soukromí[1]
  • Porovnávání a kombinace již veřejně přístupných dat, ke kterým může být pro externí strany nepohodlný/obtížný přístup
Cíl doby odezvy 3 pracovní týdny 5 pracovních dnů nelze aplikovat
Očekávané procento požadavků (interní metrika) 15% 35% 50%
Co to znamená pro týmy Wikimedia Foundation
Následné akce
  • Nenahrávejte tato data na servery jiné než Wikimedia Foundation
  • Vymažte výstupy před odevzdáním kódu, a to i do soukromého úložiště Gitlab
  • Právní oddělení a bezpečnost zváží zveřejnění vysoce rizikových údajů případ od případu po přezkoumání a zmírnění rizika
  • Neupravená data lze nahrát na soukromé servery mimo Wikimedia Foundation (soukromé úložiště Gitlab, Slack, Drive atd. )
  • Sanitovaná data jsou považována za nízkoriziková a lze je nahrávat na veřejné' servery mimo Wikimedia Foundation (Gitlab, prezentace, seznamy adresátů, atd.). Sanitace dat zahrnuje
  • Právní oddělení a bezpečnost zváží zveřejnění údajů o středním riziku případ od případu po přezkoumání a zmírnění rizika
  • Tato data lze nahrávat na veřejné servery mimo Wikimedia Foundation (Gitlab, prezentace, seznamy adresátů atd.)

Poznámka: Seznam ochrany zemí je referenčním průvodcem pro země, které jsou potenciálně nebezpečné pro svobodu internetu, a neuvádí pracovní vztahy nadace s jednotlivými zeměmi.

Často kladené otázky

  • Otázka: K čemu se používá Risk Tiering Grid? Risk Tiering Grid má pomoci týmům Wikimedia Foundation, které pracují s daty, vědět, kdy jejich práce vyžaduje kontrolu soukromí ze strany právního oddělení a bezpečnosti.
  • Otázka: Jaká jsou klíčová rizika, která Tiering Grid měří? Klíčová rizika se týkají jak nadměrného, ​​tak nedostatečného využívání spektra. Pokud se použije takovým způsobem, že se příliš mnoho věcí zaměří na právní oddělení a bezpečnost, pak se právní a bezpečnostní oddělení stanou úzkým hrdlem pro nezbytný pracovní postup. Na druhou stranu, pokud budou spuštěny projekty, které by byly zastaveny nebo zmírněny v rámci kontroly ochrany soukromí, vystavuje to nadaci rizikům ochrany soukromí – včetně reputačních, právních a bezpečnostních rizik.
  • Otázka: Kdo jsou zamýšlené cílové skupiny Tiering Grid? Týmy, které pracují s daty v produktech a technologiích.
  • Otázka: Co se změnilo oproti stávajícímu procesu kontroly rizik? Stávající proces kontroly vyžadoval, aby každý jednotlivý projekt schématu a dat prošel právní kontrolou. Obojí nebylo dodržováno a nebylo praktické pro datové týmy ani pro právní oddělení.
  • Otázka: Jaký je postup pro aktualizaci tabulky vrstvení nebo řešení neshod ve vrstvení?
    • Získání souhlasu s ochranou osobních údajů
    • Aktualizaci/úpravu může iniciovat kdokoli, ale před implementací je nutné získat všeobecný souhlas
    • Průběžná zpětná vazba ihned po spuštění, poté pravidelná rekalibrace (řekněme každé čtvrtletí nebo polovinu)
  • Otázka: Co mám dělat, když si nejsem jistý, zda se mám obrátit na právní a bezpečnostní týmy? V případě pochybností je lepší být na straně opatrnosti a odeslat požadavek L3SC.

Tabulka prahů

Pomocí této tabulky určete, zda je vaše analýza granulární nebo vysoká úroveň, přičemž informuje, za jakou úroveň/úroveň rizika je analýza považována. Poznámka: Prahové hodnoty se určují výhradně na základě zveřejňovaných statistik – tj. pokud zveřejňujete pouze informace o úpravách, nemusíte počítat s tím, kolik editorů úpravy vytvořilo.

Typ datové jednotky Klasifikace analýzy na základě počtu
"Důkladné" "Na vysoké úrovni"
Uživatelé (včetně jedinečných zařízení) <25 ≥25
Úpravy <50 ≥50
Interakce s aplikací <100 ≥100
Pozorování <250 ≥250

U vrácených změn uveďte rychlost a hrubý součet, pokud je počet vrácených úprav nebo celkový počet úprav nižší než prahová hodnota. Například:

  • Pokud bylo vráceno 8 ze 49 úprav:
    • "16,3 % vráceno (z <50 úprav)"
  • Pokud bylo vráceno 49 ze 49 úprav:
    • "100 % vráceno (z <50 úprav)"
  • Pokud bylo vráceno 20 z 580 úprav:
    • "3,4 % vráceno (z ~600 úprav)"
    • „3,4 % vráceno (z více než 500 úprav)“
  • Pokud bylo vráceno 50 z 50 úprav:
    • OK nechat tak, jak je (oba počty splňují limit)

Tyto pokyny platí také pro vykazování podprahových procent pro jiné typy dat.

Kontrolní seznam zmírnění rizik zveřejnění

Tento samoobslužný kontrolní seznam má pomoci datovým vědcům a analytikům snížit riziko zveřejnění údajů s vysokým nebo středním rizikem a omezit neúmyslné zveřejnění soukromých informací.

Než zveřejníte data (což zahrnuje odeslání notebooku do gerritu nebo gitlabu), měli byste

  • zadali tuto publikaci dat do formuláře protokolu publikování dat?
  • vymazané výstupy, které zobrazují nezpracovaná data?
  • vymazané výstupy, které zobrazují granulární data (jak je definováno v tabulce prahových hodnot výše)?
  • zmatené řádky, které zobrazují podrobná data? Například:
Python R
# Představte si, že provádíme analýzu počtu *uživatelů*, kteří chtějí funkci vyzkoušet

# nastavit konstanty
threshold = 25
col = "num_users"

# skrýt řádky
df.loc[df[col] < threshold, col] = f'<{threshold}'
library(tidyverse)
library(glue)

# {{tunit|69|set constants}}
threshold <- 25

df <- df |>
  mutate(num_users = ifelse(num_users < threshold, glue("<{threshold}"), num_users))
  • odfiltrovat řádky, které zobrazují podrobná data? Například:
Python R
# Představte si, že provádíme analýzu *interakcí aplikací* na uživatelích

# {{tunit|69|set constants}}
threshold = 100
col = "num_interactions"

# odfiltrovat řádky pod prahovou hodnotou
df = df[df[col] >= threshold]
library(tidyverse)

# {{tunit|69|set constants}}
threshold <- 100

df <- df |>
  filter(num_interactions >= threshold)

Obecná heuristika rizika

Níže, "X > Y > Z" znamená, že X je rizikovější než Y, což je zase rizikovější než Z.

  • Typ dat:
    • Zeměpisná:
      • město > (subnárodní) region > země > subkontinent > kontinent > globální
      • seznam ochrany zemí > seznam ochrany mimo zemi
    • Podrobnosti o zařízení:
      • raw User-Agent > typ prohlížeče nebo operačního systému > typ zařízení
      • nezpracovaná IP > částečně upravený rozsah IP
    • Dočasná:
      • dt > hodinově > denně > měsíčně
    • Kombinace více kláves > libovolná klávesa samostatně (tj. země + projekt > země nebo projekt)
  • Typ aktivity uživatele:
    • fundraisingová aktivita > editační aktivita > interakce > aktivita čtení
  • Typ aktivity Wikimedia Foundation:
    • sběr dat > analýza dat
    • granulární analýza > analýza na vysoké úrovni

Kontaktní informace

Pokud se domníváte, že tyto pokyny byly potenciálně porušeny, nebo pokud máte dotazy nebo připomínky k dodržování pokynů, kontaktujte nás na privacy wikimedia.org.

Poznámky

  1. Tento proces vyžaduje odbornou pomoc, aby bylo zajištěno, že je algoritmus DP správně nakonfigurován, a také odpovídající dokumentace.


Stránky týkající se ochrany osobních údajů