چگونه از داده‌های پزشکی در برابر هکرها حفاظت کنیم؟

منتشر شده در thenextweb به تاریخ ۱۹ دسامبر ۲۰۲۱
لینک منبع Protect biomedical data from hackers by treating the problem like a game

ایده بزرگ

تئوری بازی، که تلاش می‌کند پیش‌بینی کند که چگونه رفتار رقبا بر انتخاب‌های دیگر بازیکنان تأثیر می‌گذارد، می‌تواند به محققان کمک کند تا بهترین راه‌ها را برای به اشتراک گذاشتن داده‌های زیست‌پزشکی بیابند و در عین حال از ناشناس ماندن افرادی که در داده‌ها مشارکت می‌کنند در برابر هکرها محافظت می‌کند.

تحقیقات مدرن زیست پزشکی، مانند پروژه ژنوم‌های شخصی و همکاری ملی کوهورت کووید، نیازمند داده‌های زیادی است که مختص افراد باشد. در دسترس قرار دادن مجموعه داده‌های دقیق بدون نقض حریم خصوصی هر کسی یک چالش مهم برای پروژه‌هایی مانند این است.

برای انجام این کار، بسیاری از برنامه‌هایی که داده‌های ژنومی را جمع‌آوری و منتشر می‌کنند، اطلاعات شخصی را در داده‌هایی که می‌توانند برای شناسایی مجدد سوژه‌ها مورد بهره‌برداری قرار گیرند، مخفی می‌کنند. با این حال، ممکن است داده‌های باقی‌مانده برای ردیابی اطلاعات شخصی از منابع دیگر مورد استفاده قرار گیرند، که می‌تواند با داده‌های زیست‌پزشکی برای کشف هویت افراد مرتبط باشد. برای مثال، مقایسه داده‌های DNA یک فرد با پایگاه‌های اطلاعاتی شجره‌نامه عمومی مانند Ancestry.com گاهی اوقات می‌تواند نام خانوادگی فرد را به دست آورد که می‌تواند همراه با داده‌های جمعیت شناختی برای ردیابی هویت فرد از طریق موتورهای جستجوی ثبت عمومی آنلاین مانند PeopleFinders استفاده شود.

گروه تحقیقاتی مرکز حریم خصوصی و هویت ژنتیکی در تنظیمات جامعه، روش‌هایی را برای کمک به ارزیابی و کاهش خطرات حفظ حریم خصوصی در اشتراک‌گذاری داده‌های زیست‌پزشکی ایجاد کرده است. روش‌های این گروه را می‌توان برای محافظت از انواع مختلف داده‌ها، مانند جمعیت‌شناسی شخصی یا توالی ژنوم، در برابر حملات ناشناس استفاده کرد.

داده‌های ژنومی ضعیف محافظت شده توسط فردی با دسترسی به منابع داده‌های متعدد (مسیر قرمز) بیشترین خطر را دارد، در حالی که داده‌های ژنومی با محافظت بهتر که توسط فردی بدون دسترسی به منابع دیگر مورد حمله قرار می‌گیرد (مسیر آبی) کمترین خطر را دارد. تصویر از مرکز پزشکی دانشگاه وندربیلت، CC by-ND

جدیدترین کار از یک بازی رهبر-پیرو دو نفره برای مدلسازی تعاملات بین یک موضوع داده و یک کاربر داده بالقوه مخرب استفاده می‌کند. در این مدل، موضوع داده ابتدا حرکت می‌کند و تصمیم می‌گیرد چه داده‌هایی را به اشتراک بگذارد. سپس حریف حرکت بعدی را انجام می‌دهد و تصمیم می‌گیرد بر اساس داده‌های مشترک حمله کند یا خیر.

استفاده از نظریه بازی برای ارزیابی رویکردهای به اشتراک گذاری داده شامل امتیازدهی هر استراتژی هم بر روی حریم خصوصی و هم بر روی ارزش داده مشترک است. استراتژی‌ها شامل معاوضه‌هایی بین کنار گذاشتن یا پنهان کردن بخش‌هایی از داده‌ها برای محافظت از هویت و مفید نگه داشتن داده‌ها تا حد ممکن است.

استراتژی بهینه به سوژه داده اجازه می‌دهد تا بیش‌ترین داده‌ها را با کم‌ترین ریسک به اشتراک بگذارد. با این حال، یافتن استراتژی بهینه چالش برانگیز است، زیرا توالی داده‌های ژنوم ابعاد زیادی دارد، که جستجوی کامل تمام استراتژی‌های ممکن برای به اشتراک گذاری داده‌ها را غیرعملی می‌سازد.

برای غلبه بر این مشکل، ما الگوریتم‌های جستجو را توسعه دادیم که بر روی زیرمجموعه‌ای کوچک از استراتژی‌ها تمرکز دارند که به احتمال زیاد شامل استراتژی بهینه هستند. ما نشان دادیم که این روش با در نظر گرفتن سودمندی داده برای عموم و حریم خصوصی سوژه داده، موثرترین روش است.

چرا اهمیت دارد؟

بدترین حالت، که در آن مهاجم قابلیت‌های نامحدود دارد و هیچ اجتنابی از ضرر مالی ندارد، اغلب بسیار بعید است. با این حال، مدیران داده گاهی اوقات بر روی این سناریوها تمرکز می‌کنند، که می‌تواند منجر به برآورد بیش از حد خطر شناسایی مجدد و به اشتراک‌گذاری داده‌های بسیار کمتری نسبت به آنچه که می‌توانستند، شود.

هدف از این کار ایجاد یک رویکرد سیستماتیک برای استدلال در مورد ریسک‌هایی است که ارزش داده‌های به اشتراک گذاشته شده را نیز در نظر می‌گیرند. رویکرد مبتنی بر بازی نه تنها یک تخمین واقعی‌تر از ریسک شناسایی مجدد فراهم می‌کند، بلکه استراتژی‌های به اشتراک گذاری داده را نیز می‌یابد که می‌تواند تعادل درست بین مطلوبیت و حریم خصوصی را ایجاد کند.

چه تحقیقات دیگری در حال انجام است

مدیران داده‌ها از تکنیک‌های رمزنگاری برای محافظت از داده‌های بیوپزشکی استفاده می‌کنند. روش‌های دیگر شامل افزودن نویز به داده‌ها و پنهان کردن داده‌های جزئی است.

این کار بر اساس مطالعات قبلی است، که پیشگام استفاده از نظریه بازی برای ارزیابی خطر شناسایی مجدد در داده‌های سلامت و محافظت در برابر حملات هویتی به داده‌های ژنومی بود. مطالعه حاضر اولین مطالعه‌ای است که حمله‌ای را در نظر می‌گیرد که در آن مهاجم می‌تواند به چندین منبع دسترسی داشته باشد و آن‌ها را به صورت گام‌به‌گام ترکیب کند.

گام بعدی چیست؟

ما در حال حاضر تلاش می‌کنیم تا رویکرد مبتنی بر بازی خود را برای مدلسازی عدم قطعیت و عقلانیت یک بازیکن توسعه دهیم. ما همچنین در حال بررسی محیط‌هایی هستیم که از چندین ارائه دهنده داده و چندین نوع گیرنده داده تشکیل شده است.

این متن با استفاده از ربات ترجمه مقالات هوش مصنوعی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.