نوشته های DataDays 2021

نوشته های DataDays 2021 https://virgool.io/feed/@DataDays سومین دورۀ DataDays، رویداد علوم دادۀ دانشگاه صنعتی شریف fa 2026-07-09 13:28:00 https://files.virgool.io/upload/users/755794/avatar/PoopGS.png?height=120&width=120 DataDays 2021 https://virgool.io/@DataDays دانشمند داده بودن https://virgool.io/@DataDays/%D8%AF%D8%A7%D9%86%D8%B4%D9%85%D9%86%D8%AF-%D8%AF%D8%A7%D8%AF%D9%87-%D8%A8%D9%88%D8%AF%D9%86-zogfjkhyblqr در کنار رشد علم داده در سال‌های اخیر در فضای کاری، بسیاری از دانشگاه‌های مطرح دنیا رشتۀ علم داده را در فضای آکادمیک ارائه می‌کنند. دانشگاه‌هایی مانند برکلی، میشیگان، ام‌آی‌تی و ... رشتۀ علم داده را ارائه می‌دهند. بسیاری از این دوره‌ها قدمت زیادی ندارند. مثلا دانشگاه میشیگان در سال 2015 با بودجۀ 100 میلیون دلار و به کارگیری 35 عضو هیئت علمی بخش مختص علم دادۀ خود را آغاز کرد.این رشد پرسروصدا باعث ایجاد بحث‌هایی در فضای آکادمیک و به خصوص آماردان‌ها شده‌است. از آنجا که یکی از کارهای اصلی علم آمار کار با داده است، تعدادی از آماردان‌ها معتقدند که علم داده چیزی بیشتر از آمار نیست. مثلا در یک رویداد دربارۀ رابطۀ علم آمار و علم داده گفته‌شد که علم داده در اصل همان عرضۀ آمار در یک شکل و شمایل جدید است. به طور مشابه در سال 2013 ماری دیویدیان، آماردان برجسته و دبیر سابق انجمن آمار آمریکا این سوال را مطرح کرد که آیا ما (آمار) علم داده نیستیم؟در پاسخ به این بحث‌ها پاسخ‌های مختلفی ارائه می‌شود. یکی از این پاسخ‌ها به موضوع کلان داده (big data) و ابزارهای کار با آن به عنوان وجه تمایز علم داده اشاره می‌کند در صورتی که موضوع کلان داده قبل‌تر از به وجود آمدن علم داده به شکلی که امروزه از آن نام برده می‌شود در ریاضیات و علم آمار مطرح شده‌است. در اصل افزایش کاربرد و استفاده از کلان‌داده بیش از آن که به خود علم داده مربوط باشد به افزایش قدرت محاسباتی کامپیوترها در سال‌های اخیر وابسته است.نمای بصری از یک شبکۀ عصبی.پاسخ دیگر اما ریشۀ این بحث را در آنچه امروزه به عنوان علم داده مطرح شده و روی آن تاکید می‌شود می‌داند. لئو برایمن، آماردان و استاد دانشگاه برکلی در مقاله‌ای که در سال 2001 نوشت به موجی در کار با داده و تحلیل آن اشاره می‌کند که هدف اصلی آن استفاده از داده‌ها برای حداکثرسازی دقت پیش‌بینی یک متغیر هدف است. یکی از بزرگ‌ترین رویدادهایی که در این زمینه برگزار می‌شود مسابقات سایت kaggle است. در این مسابقات معمولا یک دادۀ نسبتا بزرگ دربارۀ یک موضوع به شرکت‌کننده‌ها داده شده و انتظار می‌رود الگوریتم‌هایی روی آن پیاده شود تا یک پیشبینی خوب از یک متغیر هدف ارائه شود. رشد استفاده از الگوریتم‌های پیچیده مانند شبکه‌های عصبی برای حل این مسائل نیز حرفی که برایمن در چندین سال قبل زده را تایید می‌کند.جان چمبرز (سمت چپ) و ترور هستی (Trevor Hastie)، دو آماردان مطرح در دانشگاه استنفورد.در این شرایط برخی افراد سعی می‌کنند تصویر وسیع‌تری از علم داده ارائه دهند و آن را محدود به استفاده از الگوریتم‌ها و افزایش دقت پیشبینی نمی‌بینند. جان چمبرز، استاد دانشگاه استنفورد و یکی از بنیانگذاران زبان برنامه‌نویسی S که بعدها منجر به ایجاد زبان برنامه‌نویسی R شد مهارت‌هایی که یک دانشمند داده باید داشته‌باشد را این‌گونه ترسیم میکند:آماده‌سازی و تحلیل اکتشافی داده‌ها: گفته می‌شود که فرایند مرتب کردن داده‌های خام و مدیریت ناسازگاری‌های موجود در آن حدود 80 درصد زمان کار با داده را در بر می‌گیرد. در این فرایند داده‌ها آماده شده و یک شناخت اولیه از آنها به دست می‌آید تا تحلیل‌های عمیق‌تر و مدلسازی روی آنها انجام شود.کار با داده‌های مختلف و ایجاد ارتباط بین آنها: یک دانشمند داده ممکن است با انواع مختلف داده‌ها مانند عکس، صوت، متن یا نقشه‌های جغرافیایی روبه‌رو شود. داشتن آشنایی در کار با این داده‌ها و تبدیل آنها به ساختارهایی که امکان تحلیلشان وجود داشته‌باشد به دانشمند داده کمک می‌کند.دانش برنامه‌نویسی و انجام عملیات روی داده: استفاده از زبان‌های برنامه‌نویسی مانند پایتون و R در انجام کارهای مختلف روی داده بسیار لازم است. از طرفی در فرایند انجام عملیات گاها به دلیل حجیم بودن داده‌ها برخی محدودیت‌های محاسباتی به وجود می‌آید که باید با اجرای راهکار‌هایی مثل تقسیم محاسبات بین چند پردازندۀ مختلف از آنها جلوگیری کرد.مدلسازی داده: پیاده‌کردن الگوریتم‌ها و مدل‌های آماری برای پیشبینی و بررسی ارتباط بین متغیرهای مختلف در این بخش مطرح می‌شود.بصریسازی و ارائۀ داده: دانشمندان داده با استفاده از نمودارهای مختلف و انتخاب روایت مناسب از اطلاعاتی که میتوان با داده ارائه داد سعی می‌کنند تحلیل‌های خود را توضیح داده و ارائه کنند.شناخت آکادمیک از خود علم داده و ارتباط آن با بقیۀ علوم: روش‌های مختلفی برای بررسی کیفیت مدل‌ها و تحلیل‌ها و اعتبارسنجی داده‌ها وجود دارند که باید بررسی شوند. همچنین در علم داده امکان انجام پژوهش‌ها و بررسی‌های بین رشته‌ای نیز وجود دارد.این گستردگی باعث می‌شود دانشمند داده از صرف کار با داده فراتر رفته به تعریفی که انجمن علوم داده از آن ارائه می‌دهد نزدیک‌تر شود.‘‘Data Scientist" means a professional who uses scientific methods to liberate and create meaning from raw data. Data Science Association’s “Professional Code of Conduct”منابع:David Donoho. 50 Years of Data Science, 2015https://magazine.amstat.org/blog/2013/07/01/datascience/https://www.datascienceassn.org/code-of-conduct.html DataDays 2021 DataDays 2021 Sat, 24 Apr 2021 01:47:25 +0430 حرف‌های گوگل دربارۀ کرونا https://virgool.io/@DataDays/%D8%AD%D8%B1%D9%81-%D9%87%D8%A7%DB%8C-%DA%AF%D9%88%DA%AF%D9%84-%D8%AF%D8%B1%D8%A8%D8%A7%D8%B1%DB%80-%DA%A9%D8%B1%D9%88%D9%86%D8%A7-jnsrhbd0ktnu سال 2006 گوگل محصولgoogle trends را منتشر کرد. این ابزار امکان دسترسی به داده‌های جست‌وجوهای انجام‌شده در گوگل را فراهم میکند. این داده‌ها در طول زمان و به تفکیک منطقۀ جغرافیایی ارائه می‌شوند و به کاربر این امکان را می‌دهند که میزان جست‌وجو دربارۀ یک عبارت یا موضوع خاص را بررسی کند.روزانه افراد زیادی، قبل از مراجعه به پزشک و مراکز درمانی، دربارۀ موضوعات پزشکی مختلف که عموما با وضع سلامتی خود یا اطرافیانشان ارتباط دارد جست‌وجو میکنند. مثلا تعداد افرادی که دربارۀ موضوعی مربوط به از دست دادن بویایی جست‌وجو می‌کنند، ارتباط نزدیکی با میزان مبتلایان به کرونا در منطقۀ جغرافیایی آنها دارد. همان طور که نمودار زیر نشان می‌دهد، با توجه به داده‌هایی که در آوریل سال 2020 از داده‌های جست‌جو در آمریکا به دست آمده، میزان جست‌وجوها در یک ایالت برای عباراتی که به از دست دادن بویایی مربوط هستند ارتباط مستقیمی با تعداد مبتلایان آن ایالت به ویروس کرونا دارد.رابطۀ نسبت مبتلایان در یک ایالت به جمعیت با جست‌وجو دربارۀ از دست دادن حس بویاییعلائم دیگر تایید شدۀ ویروس، مانند تنگی نفس و از دست دادن حس چشایی نیز رابطۀ مستقیمی با میزان ابتلا به ویروس دارند. از این اطلاعات می‌توان برای پیدا کردن نقاطی که در آیندۀ نزدیک امکان گسترش ویروس در آنها وجود دارد استفاده کرد. هم‌چنین میتوان با مقایسۀ آمار مبتلایان و آمار جست‌وجو در مناطق مختلف، آمارهای رسمی ارائه‌شده را صحت‌سنجی کرد.مثلا در زمانی که بررسی‌ها انجام گرفته، میزان جست‌وجو برای از دست دادن بویایی در کشور اکوادور بیشترین مقدار را نسبت به بقیِ کشورها داشته اما طبق آمارهای رسمی میزان ابتلا به ویروس در این کشور از کشورهایی مثل آمریکا، ایران و کانادا کمتر بوده است. در این شرایط می‌توان حدس زد که تعداد مبتلایان در اکوادور بسیار بیشتر از آمار رسمی است.بعد از انتشار خبری که به ارتباط ابتلا به ویروس و از دست دادن بویایی مربوط بود، ممکن است بسیاری از افراد بدون اینکه به ویروس مبتلا باشند در رابطه با علائم آن جست‌وجو کنند که این موضوع می‌تواند باعث ایجاد خطا در خروجی بررسی‌ها شود. تطابق تاریخ انتشار این خبر با داده‌های جست‌وجو نشان میدهد که حجم زیادی از جست‌وجوها قبل از منتشر شدن خبر وجود داشته‌اند و بعد از انتشار خبر نیز تغییر شدیدی در بسیاری از کشورها در میزان جست‌وجو دربارۀ علائم مختلف اتفاق نیفتاده‌است.مثلا طبق داده‌های مربوط به ایران در اینجا که مربوط به جست‌وجوهای حدودا یک‌ماهۀ اول شیوع بیماری در کشور و قبل از انتشار ارتباط از دست دادن بویایی و مبتلا شدن است، میزان جست‌جوها دربارۀ از دست دادن بویایی بسیار نسبت به گذشته بسیار بیشتر شده‌است.پژوهشی در سال 2016 نشان داد که میتوان با استفاده از داده‌های جست‌وجو و دیگر داده‌های به دست آمده از اینترنت، علائم سرطان پانکراس را پیش‌بینی کرد و تشخیص آن را پنج ماه زودتر انجام داد. به طور مشابه شاید بتوان با استفاده از داده‌های جست‌وجو دربارۀ علائم ناشناختۀ ویروس کرونا نیز تحقیق کرد. مثلا در بسیاری از کشورها مثل اسپانیا و ایتالیا جست‌وجو دربارۀ عباراتی که مربوط به درد گرفتن و سوزش چشم هستند بعد از شیوع بیماری افزایش داشته که میتواند به گسترش بیماری مربوط باشد.در نوشتن این متن از مقالۀ نویسندۀ کتاب همه دروغ میگویند در سایت نیویورک تایمز استفاده شده است. کتاب سعی می‌کند مثال‌های جالبی از اطلاعاتی که داده‌ها میتوانند دربارۀ رفتار مردم نشان دهند ارائه کند. این مثال‌ها شامل رفتارهای مختلفی شامل موارد سیاسی یا اخلاقی می‌شوند. بسیاری این بررسی‌ها روی داده‌های جست‌وجوی گوگل و با استفاده از ابزار google trends انجام گرفته که نشان میدهد با ابزارهای در دسترس و نسبتا ساده میتوان بررسی‌های گسترده‌ای با استفاده از داده‌ها انجام داد.منابع:https://www.nytimes.com/2020/04/05/opinion/coronavirus-google-searches.htmlhttps://trends.google.com/trends DataDays 2021 DataDays 2021 Thu, 15 Apr 2021 18:34:00 +0430 فقر و داده https://virgool.io/@DataDays/%D9%81%D9%82%D8%B1-%D9%88-%D8%AF%D8%A7%D8%AF%D9%87-fz559jfgtqd9 داده‌‌ها در بسیاری از تصمیم‌های اقتصادی و سیاسی نقش مهمی دارند. از داده‌های جمعیتی برای اندازه‌گیری و بررسی شاخص‌های مختلف اقتصادی و اجتماعی استفاده میشود که در انجام سیاست‌های حمایتی و تخصیص منابع بسیار تاثیرگذار هستند. در اصل حکومت‌ها نیاز دارند که مواردی مانند توزیع ثروت در جامعه و اقشار ضعیف را شناسایی کنند که این شناسایی با استفاده از داده‌هایی که در سرشماری‌ها، پیمایش‌های آماری، بیمارستان‌ها، بانک‌ها و ... تولید می‌شوند انجام می‌شود.در بسیاری از کشورهای توسعه‌نیافته به دلیل ضعف زیرساخت‌ها و محدودیت‌های مالی داده‌هایی که امکان چنین بررسی‌هایی را فراهم می‌کنند وجود ندارند. ایده‌‌ای که در این شرایط مطرح می‌شود استفاده از داده‌هایی مانند عکس‌های ماهواره‌ای و تماس‌های تلفنی است که در نگاه اول شاید ارتباط مستقیمی به بحث بررسی فقر و دسترسی به منابع نداشته‌باشند.نقشۀ مناطق ثروتمند (قسمت‌های روشن‌تر) و فقیر (قسمت‌های تیره‌تر) در کشور نیجریه که توسط الگوریتم‌هایی که از داده‌های تماس تلفنی و عکس ماهواره‌ای استفاده می‌کنند تولید شده‌است. در سال 2015 چند تن از پژوهشگران دانشگاه برکلی توانستند با استفاده از داده‌های تماس‌های تلفنی در کشور رواندا و الگوریتم‌های یادگیری ماشین با دقت خوبی وضعیت دسترسی به امکانات و فقر را در این کشور بررسی کنند.اطلاعات 1.5 میلیون تماسی که در یک بازۀ یک ساله در کشور گرفته شده در دادگان وجود دارد. این اطلاعات شامل شمارۀ فردی که تماس را گرفته و فردی که تماس را دریافت کرده و همچنین اطلاعاتی مانند مدت زمان تماس و مشخصات جغرافیایی دکل‌های مخابراتی برقرارکنندۀ تماس می‌شود. برای استفاده از الگوریتم‌های یادگیری نظارت‌شده (supervised learning) نیاز است که وضعیت ثروت برخی از افرادی که در داده وجود دارند مشخص باشد تا بتوان با استفاده از آنها وضعیت ثروت و امکانات بقیۀ داده را پیش‌بینی کرد. علاوه بر این نیاز است که امکان بررسی صحت پیش‌بینی‌های انجام شده وجود داشته‌باشد.رواندا کشوری در آفریقای مرکزی است که حدود 12 میلیون جمعیت دارد. آخرین سرشماری در این کشور در سال 2012 انجام شده که با سرشماری قبلی بیش از 30 سال فاصله دارد. در سال های نزدیک به سال 2015 نیز توسط برخی نهادهای بین‌المللی در این کشور پیمایش‌هایی آماری صورت گرفته و مواردی مانند دسترسی به برق، آب آشامیدنی و میزان درآمد در این کشور مطالعه شده‌است. وجود این پیمایش‌ها و امکان ترکیب داده‌های آنها با داده‌های موجود در تماس‌های تلفنی این امکان را به پژوهشگران میدهد که برای بخشی از داده‌های تماس‌های تلفنی اطلاعات مربوط به میزان ثروت را داشته باشند و بتوانند صحت پیش‌بینی‌های انجام شده را بررسی کنند. مشکل اولی که مطرح شد عدم وجود رکوردهایی بود که برای آنها وضعیت ثروت مشخص باشد. بخشی از این رکوردها که در اصل رکوردهای دارای برچسب هستند با تماس مستقیم و مصاحبه با افراد به دست آمده و بخشی دیگر نیز با ترکیب داده های تماس تلفنی با داده‌های پیمایش های آماری تهیه شده‌اند. در نهایت میتوان با استفاده از این داده‌های برچسب‌دار که وضعیت دسترسی به امکانات برای آنها مشخص است برای آموزش مدل استفاده کرد و سپس از مدل به دست آمده برای پیشبینی داده های بدون برچسب بهره برد.موقعیت رواندا در قارۀ آفریقا روی نقشهمی‌توان با استفاده از داده ها به اطلاعاتی دربارۀ افراد پی برد. مثلا با بررسی موقعیت مراکز مخابراتی که تماس‌های نیمه شب و نزدیک به ساعت خواب یک فرد خاص به آنها مربوط شده میتوان با احتمال بالایی حدود محل زندگی او را به دست آورد. همچنین با تحلیل‌های آماری میتوان فهمید که مواردی مثل مدت زمان مکالمه، تنوع مخاطبین، وجود تماس‌های خارجی و میزان شارژ حساب تلفن با میزان دسترسی فرد به امکانات همبستگی مثبت دارند.بعد از پیش‌بینی با استفاده از مدل و بررسی نتایج مشخص می‌شود که می‌توان تا حد خوبی برای تخمین میزان ثروت افراد از این روش استفاده کرد. مثلا در نمودار زیر، مقادیر پیش‌بینی شده در محور افقی و موارد واقعی ثروت که از پیمایش‌های آماری به دست آمده‌اند در محور عمودی قرار گرفته‌اند که همبستگی خوبی بین این دو مشاهده می‌شود. باید در نظر گرفت که این مقادیر استانداردسازی شده‌اند و مقدار واقعی نیستند. همچنین میتوان با توجه به موقعیت دکل‌های مخابراتی نقشه‌ای از توزیع فقر در کشور را تهیه کرد.مقایسۀ خروجی‌های مدل با داده‌های موجوددر پژوهش مشابهی که در دوران شیوع کرونا در کشور توگو انجام شد از داده‎های تماس تلفنی و عکس‌های ماهواره ای برای شناسایی خانوارهایی استفاده شد که دولت قصد داشت به آنها تسهیلاتی به خاطر آسیب دادن از نظر اقتصادی در دوران کرونا اهدا کند. اقدامات مشابهی نیز در سال های اخیر در تعدادی از کشور های کمتر توسعه یافته مانند بنگلادش و افغانستان در حال انجام است.استفاده از این داده‌ها برای بررسی فقر در رواندا طبق ادعای پژوهشگران باعث کاهش 99 درصدی هزینه‌ها شده و بسیار سریع‌تر است. از طرفی مشکلاتی مانند تجاوز به حریم خصوصی افراد و ملاحظات اخلاقی ورود حکومت به زندگی مردم و ایجاد برنامه‌هایی که فعالیت‌های آنها را به شدت تحت نظر می‌گیرد در انجام این‌گونه پژوهش ها وجود دارد. همچنین این امکان وجود دارد که با متداول شدن استفاده از این روش ها، مردم با انجام اقداماتی الگوریتم ها را دور بزنند. مثلا مردم در آفریقا فهمیدند با تغییر شکل و رنگ سقف خانه‌هایشان میتوانند شانس دریافت کمکهای مالی را افزایش دهند.در نهایت باید در نظر داشت که الگوریتم‌ها علیرغم ضعف های بسیاری که دارند میتوانند امکان به کار بردن روش‌هایی نسبتا سریع و ارزان برای مطالعه فقر را با استفاده از داده‌هایی مثل تماس‌های تلفنی که در کشورهای توسعه‌نیافته در دسترس است فراهم کرده و به توزیع بهتر منابع و سیاست‌گذاری اقتصادی کمک کنند.منابع:http://science.sciencemag.org/cgi/rapidpdf/353/6301/753?ijkey=dclBF54r08Rpw&amp;amp;amp;amp;amp;keytype=ref&amp;amp;amp;amp;amp;siteid=scihttps://www.nature.com/articles/d41586-018-06215-5http://www.sciencemag.org/cgi/rapidpdf/350/6264/1073?ijkey=jl1FOo2RaNJQk&amp;amp;amp;amp;amp;keytype=ref&amp;amp;amp;amp;amp;siteid=sci DataDays 2021 DataDays 2021 Sun, 11 Apr 2021 17:33:44 +0430