L-diverzita
l-diverzita, také psaná jako ℓ-diverzita, je forma anonymizace založená na skupinách, která se používá k ochraně soukromí v datových sadách tím, že snižuje granularitu reprezentace dat. Toto snížení představuje kompromis, který vede k určité ztrátě efektivity algoritmů pro správu nebo těžbu dat výměnou za vyšší úroveň ochrany soukromí. Model l-diverzity je rozšířením modelu k-anonymity, který snižuje granularitu reprezentace dat pomocí technik jako je generalizace a potlačení, takže každý záznam odpovídá alespoň k-1 dalším záznamům v datech. Model l-diverzity řeší některé nedostatky modelu k-anonymity, kdy ochrana identit na úroveň k-jedinců není ekvivalentní ochraně odpovídajících citlivých hodnot, které byly generalizovány nebo potlačeny, zejména pokud citlivé hodnoty v rámci skupiny vykazují homogenitu. Model l-diverzity přidává podporu vnitroskupinové diverzity citlivých hodnot do anonymizačního mechanismu.
Útoky na k-anonymitu
[editovat | editovat zdroj]I když je k-anonymita slibným přístupem pro skupinovou anonymizaci vzhledem k její jednoduchosti a široké škále algoritmů, které ji provádějí, je však náchylná k mnoha útokům. Pokud má útočník k dispozici doplňkové informace, stávají se tyto útoky ještě účinnějšími. Mezi tyto útoky patří:
- Útok na homogenitu: Tento útok využívá situace, kdy všechny hodnoty citlivého atributu v sadě k záznamů jsou totožné. V takových případech, i když data byla k-anonymizována, může být citlivá hodnota pro sadu k záznamů přesně předpovězena.
- Útok s využitím doplňkových znalostí: Tento útok využívá asociaci mezi jedním nebo více kvazi-identifikátory a citlivým atributem k zúžení množiny možných hodnot pro citlivý atribut. Například Machanavajjhala, Kifer, Gehrke a Venkitasubramaniam (2007) ukázali, že vědomí, že srdeční infarkty se vyskytují méně často u japonských pacientů, může být použito k zúžení rozsahu hodnot pro citlivý atribut, jako je diagnóza pacienta.
Formální definice
[editovat | editovat zdroj]Vzhledem k existenci útoků, při kterých mohou být pro data s k-anonymitou odvozeny citlivé atributy, byla metoda l-diverzity vytvořena jako rozšíření k-anonymity tím, že navíc zachovává rozmanitost citlivých polí. Kniha Privacy-Preserving Data Mining – Models and Algorithms (2008)[1] definuje l-diverzitu následovně:
Nechť je q*-blok množina n-tic, kde jejich necitlivé hodnoty jsou generalizovány na q*. Q*-blok je l-diverzní, pokud obsahuje l „dobře reprezentovaných“ hodnot pro citlivý atribut S. Tabulka je l-diverzní, pokud každý q*-blok v ní je l-diverzní.
Článek t-Closeness: Privacy beyond k-anonymity and l-diversity (2007)[2] definuje l-diverzitu následovně:
Princip l-diverzity – Ekvivalentní třída má l-diverzitu, pokud existuje alespoň l „dobře reprezentovaných“ hodnot pro citlivý atribut. Tabulka má l-diverzitu, pokud každá ekvivalentní třída v tabulce má l-diverzitu.
Machanavajjhala a kol. (2007)[3] definují „dobře reprezentované“ třemi možnými způsoby:
- Distinktivní l-diverzita – Nejjednodušší definice zajišťuje, že v každé ekvivalentní třídě existuje alespoň l různých hodnot pro citlivé pole.
- Entropická l-diverzita – Nejsložitější definice definuje Entropii ekvivalentní třídy E jako negaci součtu s přes doménu citlivého atributu p(E,s)log(p(E,s)), kde p(E,s) je podíl záznamů v E, které mají citlivou hodnotu s. Tabulka má entropickou l-diverzitu, pokud pro každou ekvivalentní třídu E platí, že Entropie(E) ≥ log(l).
- Rekursivní (c-l)-diverzita – Kompromisní definice, která zajišťuje, že nejčastější hodnota se neobjevuje příliš často, zatímco méně časté hodnoty nejsou příliš vzácné.
Aggarwal a Yu (2008) upozorňují, že pokud existuje více než jedno citlivé pole, problém l-diverzity se stává obtížnějším kvůli přidaným dimenzionalitám.
Reference
[editovat | editovat zdroj]V tomto článku byl použit překlad textu z článku l-diversity na anglické Wikipedii.
- ↑ AGGARWAL, Charu C; YU, Philip S. A General Survey of Privacy-Preserving Data Mining Models and Algorithms. 2008. vyd. [s.l.]: Springer Dostupné online. ISBN 978-0-387-70991-8. S. 11-52.
- ↑ LI, Ninghui; LI, Tiancheng; VENKATASUBRAMANIAN, S. 2007 IEEE 23rd International Conference on Data Engineering. [s.l.]: [s.n.], 2007. ISBN 978-1-4244-0802-3. DOI 10.1109/ICDE.2007.367856. Kapitola T-Closeness: Privacy Beyond k-Anonymity and l-Diversity, s. 106–115.
- ↑ MACHANAVAJJHALA, Ashwin; KIFER, Daniel; GEHRKE, Johannes. L-diversity: Privacy Beyond K-anonymity. ACM Transactions on Knowledge Discovery from Data. March 2007, roč. 1, čís. 1, s. 3–es. Dostupné online. DOI 10.1145/1217299.1217302.