خواندن ۶ دقیقه·۴ سال پیش

حریم خصوصی در داده‌کاوی

از سویی افزایش سرسام‌آور تولید داده در جهان و از طرفی دیگر تلاش نهادهای قانونی برای قانون‌‌گذاری، حریم خصوصی را به یکی از مباحث داغ و پراهمیت زندگی دیجیتال ما تبدیل کرده است. در این نوشته‌ی کوتاه به مسئولیت تحلیل‌گران داده در برابر حفظ حریم خصوصی کاربران و چالش‌های پیش رویشان می‌پردازم.

تنها شیوه‌ی حفاظت از یک نفر، حفاظت از همه است. "ادوارد اسنودن - وب‌سامیت ۲۰۱۹"

از جورج اورول تا GDPR

حریم خصوصی، موضوع جدیدی نیست. طرح آن، برای اولین‌بار به اصلاحیه‌های قانون اساسی آمریکا در سال‌ ۱۷۸۹ بازمی‌گردد. چیزی حدود ۲۳۰ سال پیش! به تدریج مقاله‌های حقوقی و علمی بسیاری در صیانت از حریم خصوصی منتشر شدند. برای مثال مقاله‌ی حق تنها ماندن در سال ۱۸۹۰، اولین مقاله‌ی حقوقی در تاریخ حقوق آمریکا است که حریم خصوصی را بعنوان یک حق مسلّم به رسمیت می‌شناسد. جورج اورول در سال ۱۹۴۸ رمان ۱۹۸۴ را منتشر می‌کند و حفظ حریم خصوصی را بعنوان یک مطالبه‌ی عمومی مطرح می‌کند و پیشرفت‌های فناوری طی جنگ ‌جهانی دوم، نگرانی‌ها را بیش از پیش تشدید می‌کنند. در سال ۱۹۶۸ مقاله‌ای با عنوان حریم خصوصی و آزادی منتشر می‌شود و با تعریف حریم خصوصی بعنوان یکی از ارکان اصلی آزادی فردی، صحنه را برای مباحثه‌های مدرن‌تری مانند تاثیرات تکنولوژی بر آزادی‌های فردی آماده می‌کند. با رشد روزافزون فناوری‌ و شکل‌گیری مفهوم بزرگ‌داده، اتحادیه اروپا دو قانون پراهمیت را طی سال‌های ۱۹۸۰ تا ۱۹۹۰ تصویب می‌کند که بنیان‌ بسیاری از قوانین مربوط به حریم خصوصی در کشورهای جهان می‌شوند. تصویب بخش‌نامه حفاظت از داده در سال ۱۹۹۵ در اتحادیه اروپا، شهروندان این اتحادیه را در برابر بخش عظیمی از خطرات ناشی از نقض حریم خصوصی محافظت می‌کند تا اینکه در نهایت در سال ۲۰۱۴، این اتحادیه‌ با ۶۲۱ رای موافق، مقررات عمومی حفاظت از داده (GDPR) را تصویب و در سال ۲۰۱۸ بصورت کامل اجرایی می‌کند. این قانون - همانگونه که از نامش پیداست - دامنه‌ی گسترده‌ای از موضوعات را شامل می‌شود.

حریم خصوصی از طراحی (Privacy by Design)

آنا کوواکیان از اولین کسانی بود که در سال ۱۹۹۰، موضوع حریم خصوصی از طراحی را مطرح کرد که بعدها بصورت مفصل در ماده‌ی ۲۵ از GDPR نیز به آن پرداخته شد. تمام عواملی که بهر نحوی به داده کاربران دسترسی دارند (مانند کسب‌وکارها)؛ موظف هستند که حریم خصوصی را بصورت پیش‌فرض در طراحی محصولات و خدمات خود پیاده‌سازی و رعایت کنند.

"حریم خصوصی از طراحی" بخشی از GDPR است که شامل ما تحلیل‌گران داده نیز می‌شود. ایده کلی این است که قبل از انجام هرگونه‌ تحلیل روی داده‌، شیوه‌هایی را روی داده‌ پیاده‌ کنیم که منجر به حفظ حریم خصوصی کاربران حاضر در آن مجموعه داده شود.

اجازه دهید با یک مثال موضوع را مشخص‌تر کنم. تصور کنید که شما به یک مجموعه داده‌ جی‌پی‌اس از کاربران دسترسی دارید که مسیر حرکت‌ آن‌ها را در بازه‌ی زمانی مشخص نشان می‌دهد. نام کاربری کاربران در این مجموعه داده کدگذاری شده است و هویت کاربران مشخص نیست. این مجموعه داده بصورت غیرقانونی منتشر می‌شود. در صورتی که یک شخص متخاصم به این مجموعه داده دسترسی پیدا کند و مطمئن باشد که خانم X در این مجموعه داده وجود دارد، می‌تواند با بدست آوردن دانش پس‌زمینه، به تمامی داده‌ی موجود از خانم X در این مجموعه داده پی‌ ببرد. برای مثال اگر او را تعقیب کند و متوجه شود که روزانه صبح‌ به مدرسه، ظهر به سرکار و بعد از ظهر به باشگاه ورزشی می‌رود؛ با فیلتر کردن ردیف‌هایی که رفتار مشابهی دارند با احتمال بالایی می‌تواند تمام ردیف‌های مرتبط با خانم X را از این مجموعه داده تشخیص دهد.

قانون حریم خصوصی از طراحی، قصد دارد این اطمینان را حاصل کند که حتی در صورت انتشار مجموعه داده، احتمال تشخیص کاربران در آن وجود نداشته باشد. الگوریتم‌ها و شیوه‌های مختلفی برای پاسخ به این نیاز، پیشنهاد شده‌اند که برخی از آن‌ها را مرور می‌کنیم.

ایجاد آشفتگی

شیوه‌هایی هستند که بصورت تصادفی مجموعه داده را دچار آشفتگی می‌کنند به شکلی که به ویژگی‌های آماری آن لطمه‌ای وارد نشود و این اطمینان وجود داشته باشد که کماکان می‌توان به الگو‌های مدنظر در داده دست پیدا کرد.

ε-differential

این شیوه بر این اصل استوار است که اگر تأثیر یک رکورد در پایگاه‌داده به اندازه کافی کوچک باشد، نمی‌توان از نتیجهٔ جستجو در پایگاه‌داده، اطلاعات رکوردهای خاصی را استنتاج کرد و بنابراین حریم خصوصی را نقض نمی‌کند (ویکی‌پدیا).

اگر مجموعه داده‌، شامل داده یک نفر باشد؛ این شخص ۱۰۰٪ از این مجموعه داده را تشکیل داده است. در عوض اگر مجموعه داده، شامل داده صد نفر باشد، هر شخص ۱٪ از این مجموعه داده را تشکیل داده‌اند. هرقدر میزان افراد حاضر در مجموعه داده کمتر باشد، به افزودن نویز بیشتری برای حفظ حریم خصوصی کاربران نیازمندیم.

k-anonymity

در این شیوه، مجموعه داده را کلی‌تر و جزییات ردیف‌ها را از K ستون حذف می‌کنیم. برای نمونه مجموعه داده‌ زیر که از ویکی‌پدیا بازنشر شده‌ را ببینید:

سه ستون Name، Religion و Age را به‌ شیوه‌ای کلی‌تر (Generalise) و یا محو (Suppression) کنیم از k-anonymity استفاده کرده‌ایم:

احتمالا سوالی که با دیدن این سه شیوه برای شما هم پیش می‌آید این است که ما با این کار به کیفیت مجموعه داده خود لطمه می‌زنیم و ممکن است نتوانیم با تحلیل مجموعه داده جدید به آنچه که می‌خواهیم، دست پیدا کنیم. سوال خوبیست! این؛ یکی از چالش‌های اصلی مطرح در بحث ناشناس کردن مجموعه داده است.

سبک و سنگین کردن کیفیت داده در مقابل حفظ حریم خصوصی

اگر بدنبال حریم خصوصی ۱۰۰٪ هستیم، چاره‌ای نداریم جز اینکه هیچ داده‌ای را در اختیار تحلیل‌گر قرار ندهیم و اگر بدنبال کیفیت ۱۰۰٪ در تحلیل هستیم، باید همه چیز را در اختیارش قرار دهیم. اینجاست که به یک نقطه‌ی تعادل نیاز خواهیم داشت. به یک trade-off بین کیفیت و سطح حریم خصوصی مجموعه داده.

روش‌هایی برای پیدا کردن این trade-off پیشنهاد شده‌اند که من بصورت خلاصه، یکی از آن‌ها را توضیح می‌دهم.

تصور کنید مجموعه‌ داده‌ای (مانند مجموعه داده بالایی) دچار نقص و منتشر شده است. یک شخص متخاصم با داشتن دانش پس‌زمینه می‌تواند ردیف‌های مربوط به خانم X را از این مجموعه داده تشخیص دهد. می‌توان با شبیه‌سازی این دانش پس‌زمینه، احتمال خطر لو رفتن ردیف‌های مربوط به خانم X را اندازه‌گیری کرد. با تکرار این‌ کار برای همه کاربران و همه‌ی انواع دانش پس‌زمینه، می‌توان به یک دید کلی نسبت به اینکه کدام مجموعه داده کاربران را در خطر کمتری قرار می‌دهد، رسید.

برای نمونه تصویر پایین را ببینید. ستون ‌I-RAC میزان ریسک را نمایش می‌دهد. ریسک تحت شرایطی که ما تمام ۹ ستون داده‌مان را منتشر کنیم، حتی اگر دانش پس‌زمینه (BK) بسیار کم باشد، ریسک بالایی خواهیم بود (بخش قرمز رنگ). هرچند کاربردپذیری بالایی دارد. در مقابل اگر فقط ۱ ستون از داده‌مان را منتشر کنیم، ریسک بسیار پایین خواهد آمد (بخش آبی رنگ). هرچند کاربردپذیری نیز پایین خواهد آمد. به نظر می‌رسد بخش سبز میانی بهترین تعداد ستون‌هایی از داده‌مان است که با انتشار آن نه به کیفیت لطمه‌ای می‌زنیم و نه ریسک بالایی را به کاربرانمان تحمیل می‌کنیم.

با این حال بدست آوردن این نمودار، برای همه مجموعه‌های داده‌ میسر نیست و یا به لحاظ محاسباتی بسیار سخت است و جز مسائل NP-hard قلمداد می‌شود.

در این نوشته‌ی کوتاه، به شکل‌گیری ایده‌ی حریم خصوصی از طراحی (Privacy by Design) در GDPR پرداختم و نمونه‌هایی از شیوه‌های حفظ آن ارائه دادم و در نهایت هم به روشی کلی در برقراری تعادل بین کیفیت مجموعه داده و حفظ حریم خصوصی اشاره کردم.

حریم خصوصیداده کاویتحلیل دادهدادهgdpr

سعید چوبانی

NLP Enthusiast | Privacy Fan

شاید از این پست‌ها خوشتان بیاید