از سویی افزایش سرسامآور تولید داده در جهان و از طرفی دیگر تلاش نهادهای قانونی برای قانونگذاری، حریم خصوصی را به یکی از مباحث داغ و پراهمیت زندگی دیجیتال ما تبدیل کرده است. در این نوشتهی کوتاه به مسئولیت تحلیلگران داده در برابر حفظ حریم خصوصی کاربران و چالشهای پیش رویشان میپردازم.
تنها شیوهی حفاظت از یک نفر، حفاظت از همه است. "ادوارد اسنودن - وبسامیت ۲۰۱۹"
حریم خصوصی، موضوع جدیدی نیست. طرح آن، برای اولینبار به اصلاحیههای قانون اساسی آمریکا در سال ۱۷۸۹ بازمیگردد. چیزی حدود ۲۳۰ سال پیش! به تدریج مقالههای حقوقی و علمی بسیاری در صیانت از حریم خصوصی منتشر شدند. برای مثال مقالهی حق تنها ماندن در سال ۱۸۹۰، اولین مقالهی حقوقی در تاریخ حقوق آمریکا است که حریم خصوصی را بعنوان یک حق مسلّم به رسمیت میشناسد. جورج اورول در سال ۱۹۴۸ رمان ۱۹۸۴ را منتشر میکند و حفظ حریم خصوصی را بعنوان یک مطالبهی عمومی مطرح میکند و پیشرفتهای فناوری طی جنگ جهانی دوم، نگرانیها را بیش از پیش تشدید میکنند. در سال ۱۹۶۸ مقالهای با عنوان حریم خصوصی و آزادی منتشر میشود و با تعریف حریم خصوصی بعنوان یکی از ارکان اصلی آزادی فردی، صحنه را برای مباحثههای مدرنتری مانند تاثیرات تکنولوژی بر آزادیهای فردی آماده میکند. با رشد روزافزون فناوری و شکلگیری مفهوم بزرگداده، اتحادیه اروپا دو قانون پراهمیت را طی سالهای ۱۹۸۰ تا ۱۹۹۰ تصویب میکند که بنیان بسیاری از قوانین مربوط به حریم خصوصی در کشورهای جهان میشوند. تصویب بخشنامه حفاظت از داده در سال ۱۹۹۵ در اتحادیه اروپا، شهروندان این اتحادیه را در برابر بخش عظیمی از خطرات ناشی از نقض حریم خصوصی محافظت میکند تا اینکه در نهایت در سال ۲۰۱۴، این اتحادیه با ۶۲۱ رای موافق، مقررات عمومی حفاظت از داده (GDPR) را تصویب و در سال ۲۰۱۸ بصورت کامل اجرایی میکند. این قانون - همانگونه که از نامش پیداست - دامنهی گستردهای از موضوعات را شامل میشود.
آنا کوواکیان از اولین کسانی بود که در سال ۱۹۹۰، موضوع حریم خصوصی از طراحی را مطرح کرد که بعدها بصورت مفصل در مادهی ۲۵ از GDPR نیز به آن پرداخته شد. تمام عواملی که بهر نحوی به داده کاربران دسترسی دارند (مانند کسبوکارها)؛ موظف هستند که حریم خصوصی را بصورت پیشفرض در طراحی محصولات و خدمات خود پیادهسازی و رعایت کنند.
"حریم خصوصی از طراحی" بخشی از GDPR است که شامل ما تحلیلگران داده نیز میشود. ایده کلی این است که قبل از انجام هرگونه تحلیل روی داده، شیوههایی را روی داده پیاده کنیم که منجر به حفظ حریم خصوصی کاربران حاضر در آن مجموعه داده شود.
اجازه دهید با یک مثال موضوع را مشخصتر کنم. تصور کنید که شما به یک مجموعه داده جیپیاس از کاربران دسترسی دارید که مسیر حرکت آنها را در بازهی زمانی مشخص نشان میدهد. نام کاربری کاربران در این مجموعه داده کدگذاری شده است و هویت کاربران مشخص نیست. این مجموعه داده بصورت غیرقانونی منتشر میشود. در صورتی که یک شخص متخاصم به این مجموعه داده دسترسی پیدا کند و مطمئن باشد که خانم X در این مجموعه داده وجود دارد، میتواند با بدست آوردن دانش پسزمینه، به تمامی دادهی موجود از خانم X در این مجموعه داده پی ببرد. برای مثال اگر او را تعقیب کند و متوجه شود که روزانه صبح به مدرسه، ظهر به سرکار و بعد از ظهر به باشگاه ورزشی میرود؛ با فیلتر کردن ردیفهایی که رفتار مشابهی دارند با احتمال بالایی میتواند تمام ردیفهای مرتبط با خانم X را از این مجموعه داده تشخیص دهد.
قانون حریم خصوصی از طراحی، قصد دارد این اطمینان را حاصل کند که حتی در صورت انتشار مجموعه داده، احتمال تشخیص کاربران در آن وجود نداشته باشد. الگوریتمها و شیوههای مختلفی برای پاسخ به این نیاز، پیشنهاد شدهاند که برخی از آنها را مرور میکنیم.
ایجاد آشفتگی
شیوههایی هستند که بصورت تصادفی مجموعه داده را دچار آشفتگی میکنند به شکلی که به ویژگیهای آماری آن لطمهای وارد نشود و این اطمینان وجود داشته باشد که کماکان میتوان به الگوهای مدنظر در داده دست پیدا کرد.
ε-differential
این شیوه بر این اصل استوار است که اگر تأثیر یک رکورد در پایگاهداده به اندازه کافی کوچک باشد، نمیتوان از نتیجهٔ جستجو در پایگاهداده، اطلاعات رکوردهای خاصی را استنتاج کرد و بنابراین حریم خصوصی را نقض نمیکند (ویکیپدیا).
اگر مجموعه داده، شامل داده یک نفر باشد؛ این شخص ۱۰۰٪ از این مجموعه داده را تشکیل داده است. در عوض اگر مجموعه داده، شامل داده صد نفر باشد، هر شخص ۱٪ از این مجموعه داده را تشکیل دادهاند. هرقدر میزان افراد حاضر در مجموعه داده کمتر باشد، به افزودن نویز بیشتری برای حفظ حریم خصوصی کاربران نیازمندیم.
k-anonymity
در این شیوه، مجموعه داده را کلیتر و جزییات ردیفها را از K ستون حذف میکنیم. برای نمونه مجموعه داده زیر که از ویکیپدیا بازنشر شده را ببینید:
سه ستون Name، Religion و Age را به شیوهای کلیتر (Generalise) و یا محو (Suppression) کنیم از k-anonymity استفاده کردهایم:
احتمالا سوالی که با دیدن این سه شیوه برای شما هم پیش میآید این است که ما با این کار به کیفیت مجموعه داده خود لطمه میزنیم و ممکن است نتوانیم با تحلیل مجموعه داده جدید به آنچه که میخواهیم، دست پیدا کنیم. سوال خوبیست! این؛ یکی از چالشهای اصلی مطرح در بحث ناشناس کردن مجموعه داده است.
اگر بدنبال حریم خصوصی ۱۰۰٪ هستیم، چارهای نداریم جز اینکه هیچ دادهای را در اختیار تحلیلگر قرار ندهیم و اگر بدنبال کیفیت ۱۰۰٪ در تحلیل هستیم، باید همه چیز را در اختیارش قرار دهیم. اینجاست که به یک نقطهی تعادل نیاز خواهیم داشت. به یک trade-off بین کیفیت و سطح حریم خصوصی مجموعه داده.
روشهایی برای پیدا کردن این trade-off پیشنهاد شدهاند که من بصورت خلاصه، یکی از آنها را توضیح میدهم.
تصور کنید مجموعه دادهای (مانند مجموعه داده بالایی) دچار نقص و منتشر شده است. یک شخص متخاصم با داشتن دانش پسزمینه میتواند ردیفهای مربوط به خانم X را از این مجموعه داده تشخیص دهد. میتوان با شبیهسازی این دانش پسزمینه، احتمال خطر لو رفتن ردیفهای مربوط به خانم X را اندازهگیری کرد. با تکرار این کار برای همه کاربران و همهی انواع دانش پسزمینه، میتوان به یک دید کلی نسبت به اینکه کدام مجموعه داده کاربران را در خطر کمتری قرار میدهد، رسید.
برای نمونه تصویر پایین را ببینید. ستون I-RAC میزان ریسک را نمایش میدهد. ریسک تحت شرایطی که ما تمام ۹ ستون دادهمان را منتشر کنیم، حتی اگر دانش پسزمینه (BK) بسیار کم باشد، ریسک بالایی خواهیم بود (بخش قرمز رنگ). هرچند کاربردپذیری بالایی دارد. در مقابل اگر فقط ۱ ستون از دادهمان را منتشر کنیم، ریسک بسیار پایین خواهد آمد (بخش آبی رنگ). هرچند کاربردپذیری نیز پایین خواهد آمد. به نظر میرسد بخش سبز میانی بهترین تعداد ستونهایی از دادهمان است که با انتشار آن نه به کیفیت لطمهای میزنیم و نه ریسک بالایی را به کاربرانمان تحمیل میکنیم.
با این حال بدست آوردن این نمودار، برای همه مجموعههای داده میسر نیست و یا به لحاظ محاسباتی بسیار سخت است و جز مسائل NP-hard قلمداد میشود.
در این نوشتهی کوتاه، به شکلگیری ایدهی حریم خصوصی از طراحی (Privacy by Design) در GDPR پرداختم و نمونههایی از شیوههای حفظ آن ارائه دادم و در نهایت هم به روشی کلی در برقراری تعادل بین کیفیت مجموعه داده و حفظ حریم خصوصی اشاره کردم.