داده منحصر به فرد بهتر از یک مدل کامل است

شکل ۱. داده منحصر به فرد
شکل ۱. داده منحصر به فرد
منتشر‌شده در: towardsdatascience به تاریخ ۱۵ ژوئن ۲۰۲۱
لینک منبع Unique Data Is Better Than A Perfect Model

در علم داده این باور وجود دارد که مهم‌ترین چیز مدل است. حدس می‌زنم که این امر تا حدی ناشی از فراموشی عمدی باشد.

چرا این حرف را می‌زنم؟ همه ما (دانشمندان داده) می‌خواهیم باور کنیم که مدل‌سازی و مهارت‌های تحلیلی ما خاص هستند. و این مهارت‌های خاص هستند که به ما اجازه می‌دهند تا پیچیده‌ترین مشکلات کسب‌وکار را رها کرده و درآمدهای جدید را آزاد کنیم. چیزی به عنوان یک مشکل غیر ممکن وجود ندارد، ما هنوز لایه‌های مخفی کافی به آن نریخته‌ایم و یا به درستی جنگل تصادفی خود را بهینه‌سازی نکرده ایم.

اما واقعیت این نیست که اوضاع چطور پیش می‌رود. حقیقت این است که محصولات علم داده‌ی واقعاً متفاوت که ارزش واقعی اضافه می‌کنند، این کار را به دلیل داده‌های منحصر به فرد و اختصاصی انجام می‌دهند، نه مدل‌ها. این می‌تواند یک حقیقت تلخ برای درک این موضوع باشد که بخشی از کاری که همه ما به دنبال آن هستیم (مدلسازی) چیزی نیست که بیش‌ترین ارزش را ایجاد کند.

اما این کار هم در حال آزاد کردن است. پس به عنوان یک دانشمند داده، اولین ترتیب کسب‌وکار پیدا کردن یک مجموعه داده بزرگ است. بنابراین چه چیزی یک مجموعه داده بزرگ را تعریف می‌کند؟ من معتقدم که دو چیز وجود دارد که باید درست باشد تا یک مجموعه داده خاص باشد. باید اختصاصی باشد (و تکرار آن سخت باشد) و مرتبط باشد (برای حل یک مشکل کسب‌وکار بزرگ).

یک نمونه از آن، امریکن اکسپرس است. چون یک شبکه حلقه بسته را اداره می‌کند (یعنی هم کارت‌های اعتباری را صادر می‌کند و هم تجار را برای پیوستن به شبکه خود ثبت‌نام می‌کند) ، هر زمان که یک معامله با استفاده از یکی از کارت‌های آن وجود داشته باشد، می‌داند چه کسی خرید می‌کند و از چه خرده‌فروشی خرید می‌کند. با تشکر از این، امریکن اکسپرس چیزهای زیادی در مورد عادات خرج کردن و سابقه اعتباری مشتریان خود می‌داند. این به آن اجازه می‌دهد تا محصولات و خدمات اضافی را در بالای اعتبار پایه ارائه دهد و خود را از شبکه‌های حلقه باز مانند ویزا و مسترکارت (که نمی‌دانند کاردارانشان چه چیزی می‌خرند) متمایز کند.

تاریخچه تراکنش

یکی از باارزش‌ترین مجموعه داده‌ها برای شرکت‌های تجاری، تاریخچه تراکنش مالی یک فرد است. مسلما هیچ چیزی بیش از رابطه او با پول، شخص را تعریف نمی‌کند.

  • از تاریخ خرید، ما می‌توانیم چیزهایی مانند جنسیت، سن، ملیت، سطح تحصیلات، محل، شغل و علایق را استنباط کنیم.
  • از پول نقد در مقابل پول نقد در طول زمان می‌توانیم هم کیفیت فعلی اعتبار و هم سلامت مالی فرد را استنباط کنیم. ما همچنین می‌توانیم تغییرات در سلامت مالی یک فرد را در طول زمان شناسایی کنیم، که به طور بالقوه حتی سریع‌تر از موسسات مالی است.

بنابراین با مطالعه دقیق تاریخ تراکنش یک فرد، می‌توانیم بیشتر چیزهایی را که ارزش دانستن دارند (از دیدگاه تجاری) در مورد یک فرد بدانیم.

به دست آوردن همه داده‌ها

مشکل این است که چگونه ما این داده‌ها را به شیوه‌ای جامع به دست می‌آوریم؟ اگر ما تنها ۱۰ درصد معاملات یک شخص را داشته باشیم، این برای درک درست او کافی نیست.

به طور سنتی تنها خرده‌فروشان بزرگ مانند آمازون و والمارت یا موسسات مالی عظیم (مانند یک شبکه حلقه بسته مانند امریکن اکسپرس یا جی پی مورگان که هر دو دارای یک تجارت صدور کارت اعتباری بزرگ و روابط تجاری متعدد هستند) از این نوع داده‌ها آگاه بودند. اما در چند سال گذشته، اپلیکیشن‌های کیف پول هوشمند، با قرار دادن یک تجربه کاربر جذاب بر روی امور مالی یک فرد، خود را در موقعیت منحصر به فردی برای دیدن کل تصویر قرار داده‌اند.

دلیل کیف پول‌های هوشمند این است که امور مالی ما پیچیده است و سرگرم کننده نیست، که انگیزه‌ای برای ناآگاهی است. بنابراین، نمی‌دانیم چقدر خرج می‌کنیم (ممکن است حتی ندانیم چقدر بعد از مالیات خرج می‌کنیم) ، چقدر به نفع کارت اعتباری پرداخت می‌کنیم، چند اشتراک تصادفی برای هر ماه پرداخت می‌کنیم، چقدر خرج خوردن می‌کنیم و غیره.

با تحکیم جریان‌های هزینه (و درآمد) و قرار دادن یک لایه تجزیه و تحلیل در بالای آن‌ها، کیف پول‌های هوشمند به ما کمک می‌کنند تا ببینیم پول ما کجا می‌رود. به فرد تنبلی که از اعداد متنفر است این امکان را می‌دهد که به اندازه حسابدار وسواسی در امور مالی خود شفافیت داشته باشد.

بخش جالب‌تر این است که چگونه داده‌ها به صورت معکوس جریان می‌یابند-در عوض برای تجزیه و تحلیل دقیق جریان وجوه نقد ما، کیف پول هوشمند از طریق معاملات ما در مورد رفتارها و منافع ما یاد می‌گیرد. و هر چه نرم‌افزار کیف پول هوشمند مفیدتر باشد، ما بیشتر با آن تعامل می‌کنیم و داده‌ها را به آن می‌دهیم (بله، همه جاسوسی‌ها کمی ترسناک به نظر می‌رسد).

اما عجیب به نظر می‌رسد، این روشی است که شما برای ساخت یک مجموعه داده اختصاصی و مفید استفاده می‌کنید. ممکن است سال‌ها طول بکشد، اما اگر موفق شود، نتایج ارزش آن را دارند. داده‌های منحصر به فرد به دانشمندان داده اجازه می‌دهد تا بینش‌ها را ایجاد کنند، چیزها را پیش‌بینی کنند و آزمایشاتی را اجرا کنند که دیگران نمی‌توانند. و انجام آنچه که دیگران نمی‌توانند، راهی بهتر از دستیابی و حفظ یک رقابت رقابتی از پیوستن به همان مسابقه تسلیحاتی R² است که بقیه از قبل در آن شرکت می‌کنند.

بنابراین همانطور که شما کار خود را در زمینه علم داده شروع می‌کنید، به دنبال شرکت‌هایی بگردید که کار سخت ساخت مجموعه داده منحصر به فرد و تکرار نشدنی را انجام داده‌اند-گوگلز (داده کاربر) ، فیس بوک (نمودار اجتماعی) ، آمازون‌ها (معاملات تجارت الکترونیک) ، تسلا (داده ماشین خود-راننده) ، استریپ‌ها (معاملات) و غیره. و همانطور که برای آن‌ها کار می‌کنید، تنها به این فکر نکنید که چطور می‌توانید به آن‌ها کمک کنید تا مرزهای رقابتی و داده‌های خود را گسترش دهند. همچنین، وقت خود را صرف مطالعه نحوه کار این شرکت‌های پیشرو داده در زمینه ساخت، نگهداری و یادگیری از حجم عظیم داده‌های منحصر به فرد خود کنید. آفرین!

این متن با استفاده از ربات ترجمه مقاله علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.