Právní:Pokyny pro zveřejňování údajů
Toto pravidlo nebo postup spravuje nadace Wikimedia. Uvědomte si prosím, že v případě jakéhokoli rozdílu ve významu nebo výkladu mezi původní anglickou verzí tohoto obsahu a překladem má přednost původní anglická verze. |
Právo na soukromí je jádrem toho, jak komunity přispívají k projektům Wikimedie, a dodržování tohoto práva je zásadní pro naše závazky v oblasti lidských práv. Tyto pokyny pro zveřejňování dat jsou nejlepšími postupy Wikimedia Foundation pro řízení rizik při zveřejňování dat. Doplňují naše pokyny pro uchovávání údajů a přispívají k našemu závazku chránit data uživatelů, jak je rozpracováno v našich zásadách ochrany osobních údajů.
Připravují se podobné pokyny týkající se shromažďování dat, aby bylo možné lépe řídit celý životní cyklus dat v systémech Wikimedia Foundation.
Tabulka odstupňování rizik zveřejnění dat
Klasifikace dat | Důvěrné | Omezené | |
---|---|---|---|
Úroveň rizika | Úroveň 1: Vysoké riziko | Úroveň 2: Střední riziko | Úroveň 3: Nízké riziko |
Data, která by určitě mohla být použita ke způsobení škody | Data, která by mohla být pravděpodobně nebo možná použita ke způsobení škody | Údaje, u kterých je nepravděpodobné, že budou použity ke způsobení škody, nebo jsou soukromé z administrativních důvodů | |
Příklady (neúplný seznam) |
Data containing PII
|
High-level analyses of
|
High-level analyses of
|
Cíl doby odezvy | 3 pracovní týdny | 5 pracovních dnů | nelze aplikovat |
Očekávané procento požadavků (interní metrika) | 15% | 35% | 50% |
Co to znamená pro týmy Wikimedia Foundation | |||
Následné akce |
|
|
|
Poznámka: Seznam ochrany zemí je referenčním průvodcem pro země, které jsou potenciálně nebezpečné pro svobodu internetu, a neuvádí pracovní vztahy nadace s jednotlivými zeměmi.
Často kladené otázky
- Otázka: K čemu se používá Risk Tiering Grid? Risk Tiering Grid má pomoci týmům Wikimedia Foundation, které pracují s daty, vědět, kdy jejich práce vyžaduje kontrolu soukromí ze strany právního oddělení a bezpečnosti.
- Otázka: Jaká jsou klíčová rizika, která Tiering Grid měří? Klíčová rizika se týkají jak nadměrného, tak nedostatečného využívání spektra. Pokud se použije takovým způsobem, že se příliš mnoho věcí zaměří na právní oddělení a bezpečnost, pak se právní a bezpečnostní oddělení stanou úzkým hrdlem pro nezbytný pracovní postup. Na druhou stranu, pokud budou spuštěny projekty, které by byly zastaveny nebo zmírněny v rámci kontroly ochrany soukromí, vystavuje to nadaci rizikům ochrany soukromí – včetně reputačních, právních a bezpečnostních rizik.
- Otázka: Kdo jsou zamýšlené cílové skupiny Tiering Grid? Týmy, které pracují s daty v produktech a technologiích.
- Otázka: Co se změnilo oproti stávajícímu procesu kontroly rizik? Stávající proces kontroly vyžadoval, aby každý jednotlivý projekt schématu a dat prošel právní kontrolou. Obojí nebylo dodržováno a nebylo praktické pro datové týmy ani pro právní oddělení.
- Otázka: Jaký je postup pro aktualizaci tabulky vrstvení nebo řešení neshod ve vrstvení?
- Získání souhlasu s ochranou osobních údajů
- Aktualizaci/úpravu může iniciovat kdokoli, ale před implementací je nutné získat všeobecný souhlas
- Průběžná zpětná vazba ihned po spuštění, poté pravidelná rekalibrace (řekněme každé čtvrtletí nebo polovinu)
- Otázka: Co mám dělat, když si nejsem jistý, zda se mám obrátit na právní a bezpečnostní týmy? V případě pochybností je lepší být na straně opatrnosti a odeslat požadavek L3SC.
Tabulka prahů
Pomocí této tabulky určete, zda je vaše analýza granulární nebo vysoká úroveň, přičemž informuje, za jakou úroveň/úroveň rizika je analýza považována. Poznámka: Prahové hodnoty se určují výhradně na základě zveřejňovaných statistik – tj. pokud zveřejňujete pouze informace o úpravách, nemusíte počítat s tím, kolik editorů úpravy vytvořilo.
Typ datové jednotky | Klasifikace analýzy na základě počtu | |
---|---|---|
"Důkladné" | "Na vysoké úrovni" | |
Uživatelé (včetně jedinečných zařízení) | <25 | ≥25 |
Úpravy | <50 | ≥50 |
Interakce s aplikací | <100 | ≥100 |
Pozorování | <250 | ≥250 |
U vrácených změn uveďte rychlost a hrubý součet, pokud je počet vrácených úprav nebo celkový počet úprav nižší než prahová hodnota. Například:
- Pokud bylo vráceno 8 ze 49 úprav:
- "16,3 % vráceno (z <50 úprav)"
- Pokud bylo vráceno 49 ze 49 úprav:
- "100 % vráceno (z <50 úprav)"
- Pokud bylo vráceno 20 z 580 úprav:
- "3,4 % vráceno (z ~600 úprav)"
- „3,4 % vráceno (z více než 500 úprav)“
- Pokud bylo vráceno 50 z 50 úprav:
- OK nechat tak, jak je (oba počty splňují limit)
Tyto pokyny platí také pro vykazování podprahových procent pro jiné typy dat.
Kontrolní seznam zmírnění rizik zveřejnění
Tento samoobslužný kontrolní seznam má pomoci datovým vědcům a analytikům snížit riziko zveřejnění údajů s vysokým nebo středním rizikem a omezit neúmyslné zveřejnění soukromých informací.
Než zveřejníte data (což zahrnuje odeslání notebooku do gerritu nebo gitlabu), měli byste
- zadali tuto publikaci dat do formuláře protokolu publikování dat?
- vymazané výstupy, které zobrazují nezpracovaná data?
- vymazané výstupy, které zobrazují granulární data (jak je definováno v tabulce prahových hodnot výše)?
- zmatené řádky, které zobrazují podrobná data? Například:
Python | R |
---|---|
# Představte si, že provádíme analýzu počtu *uživatelů*, kteří chtějí funkci vyzkoušet
# nastavit konstanty
threshold = 25
col = "num_users"
# skrýt řádky
df.loc[df[col] < threshold, col] = f'<{threshold}'
|
library(tidyverse)
library(glue)
# {{tunit|69|set constants}}
threshold <- 25
df <- df |>
mutate(num_users = ifelse(num_users < threshold, glue("<{threshold}"), num_users))
|
- odfiltrovat řádky, které zobrazují podrobná data? Například:
Python | R |
---|---|
# Představte si, že provádíme analýzu *interakcí aplikací* na uživatelích
# {{tunit|69|set constants}}
threshold = 100
col = "num_interactions"
# odfiltrovat řádky pod prahovou hodnotou
df = df[df[col] >= threshold]
|
library(tidyverse)
# {{tunit|69|set constants}}
threshold <- 100
df <- df |>
filter(num_interactions >= threshold)
|
Obecná heuristika rizika
Níže, "X > Y > Z" znamená, že X je rizikovější než Y, což je zase rizikovější než Z.
- Typ dat:
- Zeměpisná:
- město > (subnárodní) region > země > subkontinent > kontinent > globální
- seznam ochrany zemí > seznam ochrany mimo zemi
- Podrobnosti o zařízení:
- raw User-Agent > typ prohlížeče nebo operačního systému > typ zařízení
- nezpracovaná IP > částečně upravený rozsah IP
- Dočasná:
- dt > hodinově > denně > měsíčně
- Kombinace více kláves > libovolná klávesa samostatně (tj. země + projekt > země nebo projekt)
- Zeměpisná:
- Typ aktivity uživatele:
- fundraisingová aktivita > editační aktivita > interakce > aktivita čtení
- Typ aktivity Wikimedia Foundation:
- sběr dat > analýza dat
- granulární analýza > analýza na vysoké úrovni
Kontaktní informace
Pokud se domníváte, že tyto pokyny byly potenciálně porušeny, nebo pokud máte dotazy nebo připomínky k dodržování pokynů, kontaktujte nás na privacy wikimedia.org.
Poznámky
- ↑ Tento proces vyžaduje odbornou pomoc, aby bylo zajištěno, že je algoritmus DP správně nakonfigurován, a také odpovídající dokumentace.