من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
داده منحصر به فرد بهتر از یک مدل کامل است

منتشرشده در: towardsdatascience به تاریخ ۱۵ ژوئن ۲۰۲۱
لینک منبع Unique Data Is Better Than A Perfect Model
در علم داده این باور وجود دارد که مهمترین چیز مدل است. حدس میزنم که این امر تا حدی ناشی از فراموشی عمدی باشد.
چرا این حرف را میزنم؟ همه ما (دانشمندان داده) میخواهیم باور کنیم که مدلسازی و مهارتهای تحلیلی ما خاص هستند. و این مهارتهای خاص هستند که به ما اجازه میدهند تا پیچیدهترین مشکلات کسبوکار را رها کرده و درآمدهای جدید را آزاد کنیم. چیزی به عنوان یک مشکل غیر ممکن وجود ندارد، ما هنوز لایههای مخفی کافی به آن نریختهایم و یا به درستی جنگل تصادفی خود را بهینهسازی نکرده ایم.
اما واقعیت این نیست که اوضاع چطور پیش میرود. حقیقت این است که محصولات علم دادهی واقعاً متفاوت که ارزش واقعی اضافه میکنند، این کار را به دلیل دادههای منحصر به فرد و اختصاصی انجام میدهند، نه مدلها. این میتواند یک حقیقت تلخ برای درک این موضوع باشد که بخشی از کاری که همه ما به دنبال آن هستیم (مدلسازی) چیزی نیست که بیشترین ارزش را ایجاد کند.
اما این کار هم در حال آزاد کردن است. پس به عنوان یک دانشمند داده، اولین ترتیب کسبوکار پیدا کردن یک مجموعه داده بزرگ است. بنابراین چه چیزی یک مجموعه داده بزرگ را تعریف میکند؟ من معتقدم که دو چیز وجود دارد که باید درست باشد تا یک مجموعه داده خاص باشد. باید اختصاصی باشد (و تکرار آن سخت باشد) و مرتبط باشد (برای حل یک مشکل کسبوکار بزرگ).
یک نمونه از آن، امریکن اکسپرس است. چون یک شبکه حلقه بسته را اداره میکند (یعنی هم کارتهای اعتباری را صادر میکند و هم تجار را برای پیوستن به شبکه خود ثبتنام میکند) ، هر زمان که یک معامله با استفاده از یکی از کارتهای آن وجود داشته باشد، میداند چه کسی خرید میکند و از چه خردهفروشی خرید میکند. با تشکر از این، امریکن اکسپرس چیزهای زیادی در مورد عادات خرج کردن و سابقه اعتباری مشتریان خود میداند. این به آن اجازه میدهد تا محصولات و خدمات اضافی را در بالای اعتبار پایه ارائه دهد و خود را از شبکههای حلقه باز مانند ویزا و مسترکارت (که نمیدانند کاردارانشان چه چیزی میخرند) متمایز کند.
تاریخچه تراکنش
یکی از باارزشترین مجموعه دادهها برای شرکتهای تجاری، تاریخچه تراکنش مالی یک فرد است. مسلما هیچ چیزی بیش از رابطه او با پول، شخص را تعریف نمیکند.
- از تاریخ خرید، ما میتوانیم چیزهایی مانند جنسیت، سن، ملیت، سطح تحصیلات، محل، شغل و علایق را استنباط کنیم.
- از پول نقد در مقابل پول نقد در طول زمان میتوانیم هم کیفیت فعلی اعتبار و هم سلامت مالی فرد را استنباط کنیم. ما همچنین میتوانیم تغییرات در سلامت مالی یک فرد را در طول زمان شناسایی کنیم، که به طور بالقوه حتی سریعتر از موسسات مالی است.
بنابراین با مطالعه دقیق تاریخ تراکنش یک فرد، میتوانیم بیشتر چیزهایی را که ارزش دانستن دارند (از دیدگاه تجاری) در مورد یک فرد بدانیم.
به دست آوردن همه دادهها
مشکل این است که چگونه ما این دادهها را به شیوهای جامع به دست میآوریم؟ اگر ما تنها ۱۰ درصد معاملات یک شخص را داشته باشیم، این برای درک درست او کافی نیست.
به طور سنتی تنها خردهفروشان بزرگ مانند آمازون و والمارت یا موسسات مالی عظیم (مانند یک شبکه حلقه بسته مانند امریکن اکسپرس یا جی پی مورگان که هر دو دارای یک تجارت صدور کارت اعتباری بزرگ و روابط تجاری متعدد هستند) از این نوع دادهها آگاه بودند. اما در چند سال گذشته، اپلیکیشنهای کیف پول هوشمند، با قرار دادن یک تجربه کاربر جذاب بر روی امور مالی یک فرد، خود را در موقعیت منحصر به فردی برای دیدن کل تصویر قرار دادهاند.
دلیل کیف پولهای هوشمند این است که امور مالی ما پیچیده است و سرگرم کننده نیست، که انگیزهای برای ناآگاهی است. بنابراین، نمیدانیم چقدر خرج میکنیم (ممکن است حتی ندانیم چقدر بعد از مالیات خرج میکنیم) ، چقدر به نفع کارت اعتباری پرداخت میکنیم، چند اشتراک تصادفی برای هر ماه پرداخت میکنیم، چقدر خرج خوردن میکنیم و غیره.
با تحکیم جریانهای هزینه (و درآمد) و قرار دادن یک لایه تجزیه و تحلیل در بالای آنها، کیف پولهای هوشمند به ما کمک میکنند تا ببینیم پول ما کجا میرود. به فرد تنبلی که از اعداد متنفر است این امکان را میدهد که به اندازه حسابدار وسواسی در امور مالی خود شفافیت داشته باشد.
بخش جالبتر این است که چگونه دادهها به صورت معکوس جریان مییابند-در عوض برای تجزیه و تحلیل دقیق جریان وجوه نقد ما، کیف پول هوشمند از طریق معاملات ما در مورد رفتارها و منافع ما یاد میگیرد. و هر چه نرمافزار کیف پول هوشمند مفیدتر باشد، ما بیشتر با آن تعامل میکنیم و دادهها را به آن میدهیم (بله، همه جاسوسیها کمی ترسناک به نظر میرسد).
اما عجیب به نظر میرسد، این روشی است که شما برای ساخت یک مجموعه داده اختصاصی و مفید استفاده میکنید. ممکن است سالها طول بکشد، اما اگر موفق شود، نتایج ارزش آن را دارند. دادههای منحصر به فرد به دانشمندان داده اجازه میدهد تا بینشها را ایجاد کنند، چیزها را پیشبینی کنند و آزمایشاتی را اجرا کنند که دیگران نمیتوانند. و انجام آنچه که دیگران نمیتوانند، راهی بهتر از دستیابی و حفظ یک رقابت رقابتی از پیوستن به همان مسابقه تسلیحاتی R² است که بقیه از قبل در آن شرکت میکنند.
بنابراین همانطور که شما کار خود را در زمینه علم داده شروع میکنید، به دنبال شرکتهایی بگردید که کار سخت ساخت مجموعه داده منحصر به فرد و تکرار نشدنی را انجام دادهاند-گوگلز (داده کاربر) ، فیس بوک (نمودار اجتماعی) ، آمازونها (معاملات تجارت الکترونیک) ، تسلا (داده ماشین خود-راننده) ، استریپها (معاملات) و غیره. و همانطور که برای آنها کار میکنید، تنها به این فکر نکنید که چطور میتوانید به آنها کمک کنید تا مرزهای رقابتی و دادههای خود را گسترش دهند. همچنین، وقت خود را صرف مطالعه نحوه کار این شرکتهای پیشرو داده در زمینه ساخت، نگهداری و یادگیری از حجم عظیم دادههای منحصر به فرد خود کنید. آفرین!
این متن با استفاده از ربات ترجمه مقاله علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
چیزهایی که هر دانشمند داده باید از هنر بیاموزد
مطلبی دیگر از این انتشارات
کووید۱۹ با افزایش قابلتوجه دیابت نوع ۱ تا ۷۲٪ در کودکان مرتبط شد
مطلبی دیگر از این انتشارات
تشخیص چهره لاکپشت: تلاشی برای انجام اقدامات حفاظتی پیشرفته