کدام استان ها بیشتر شانس خرید ماشین برنده شدند؟ (تحلیل کدهای ملی برندگان خرید ماشین ایران خودرو)

در اولین مرحله ی قرعه کشی خرید خودروی ایران خودرو (17 خرداد 1399)، فهرستی 15 هزار نفری از برندگان خرید خودرو منتشر شد. این فهرست شامل بخشی از کد ملی برندگان و خودروی برنده شده بود.

با این داده ها چه می شود کرد؟

یکی از کارها تحلیل محل تولد برندگان است. در کد ملی های ایرانی سه رقم اول کد ملی مربوط به «کد محل تولد فرد» است. پس اگر این فهرست 15 هزار تایی را با فهرستی از محل تولدهای مرتبط با هر سه رقم مقایسه کنیم، می توانیم محل تولد برندگان را بفهمیم.

من فهرست معتبری از برابری سه رقم اول کدهای ملی و محل تولد پیدا نکردم. تقریبن در همه جا این فهرست تکرار شده بود که مبنای مشخصی ندارد. معلوم نیست این کدها مربوط به شهرستان است یا شهر یا منطقه. نام بعضی شهرستان ها نیامده، در بعضی موارد نام شهر آمده و در بعضی موارد نام منطقه ای که به صورت رسمی در تقسیمات کشوری اسم جدایی ندارد. در این باره با بنیامین سلیمی (که بر مبنای این فهرست، یک برنامه ی پایتونی نوشته است) سوال و جواب مختصری کردیم. همچنین 11 کد بین دو شهر یا شهرستان مشترک هستند:

  • 253 مشترک بین شهرستان اقلید و شهرستان سپیدان (هر دو استان فارس)
  • 337 مشترک بین شهرستان قصر شیرین (کرمانشاه) و شهرستان حاجی آباد (هرمزگان)
  • 382 مشترک بین بخش راین (کرمان) و شهرستان مریوان (کردستان)
  • 385 مشترک بین شهرستان دیواندره (کردستان) و شهرستان پلدختر (گیلان)
  • 395 مشترک بین شهرستان جوانرود (کرمانشاه) و شهرستان نهاوند (همدان)
  • 483 مشترک بین شهرستان چالوس (مازندران) و شهرستان ازنا (گیلان)
  • 593 مشترک بین بخش عمارلو (گیلان) و شهر هندودر (مرکزی)
  • 615 مشترک بین شهرستان ابهر و شهرستان خرمدره (هر دو استان زنجان)
  • 623 مشترک بین شهر صوفیان (آذربایجان شرقی) و شهرستان آزادشهر (گلستان)
  • 635 مشترک بین شهرستان فاروج (خراسان شمالی) و سرباز (سیستان و بلوچستان)
  • 313 مشترک بین شهرستان بافت و شهرستان شهربابک (هر دو استان کرمان)

نتیجه ای که من گرفتم این است که این فهرست به شکل تجربی و شهودی استخراج شده و مبنای مشخص رسمی ندارد. با این حال با این فرض که حداقل نام استان ها در این فهرست درست است، تحلیل را بر مبنای همین فهرست پیش بردم. پس هدف من از این تحلیل این است که بدانم برندگان خرید خودرو از ایران خودرو متولد چه استان هایی هستند.

با این تحلیل چه چیزی نمی شود فهمید؟

واقعیت این است که این تحلیل هیچ چیز خاص و مهمی را نشان نمی دهد! چون جامعه آماری مورد تحلیل ما بسیار خاص است. از اول به این قرعه کشی نگاه کنیم: افرادی که پلاک فعال به نامشان نباشد، حداقل 18 سال داشته باشند، گواهینامه به نامشان باشد و در چند سال اخیر ماشین نخریده باشند و همزمان در طرح قرعه کشی خودروی سایپا شرکت نکرده باشند می توانستند در این قرعه کشی شرکت کنند! در مجموعه حدود 5 میلیون نفر در این طرح شرکت کردند (جزئیاتش را در بخش بعد می گویم) که از این تعداد 15 هزار نفر برنده ی خوشبخت خرید خودرو بودند! یعنی:

1- با این تحلیل نمی شود فهمید متولدان چه استان هایی به چه خودروهایی علاقه دارند (چون اولن جامعه ی آماری ما شامل همه ی متولدان این استان ها نیست و ثانین حق انتخاب فقط بین 4 خودرو بوده است).

2- با این تحلیل نمی شود فهمید ساکنان چه استان هایی به خرید چه خودروهایی گرایش دارند (چون کد ملی بر مبنای محل تولد است و نه محل سکونت).

3- با این تحلیل به طور کلی نمی شود «علاقه» یا «گرایش» افراد را سنجید (چون شرکت در این قرعه کشی و انتخاب یک خودرو علاوه بر علاقه، به قدرت خرید فرد و آگاهی اش از قرعه کشی هم بستگی دارد).

پس با این تحلیل چه چیزی را می شود فهمید؟ شاید تنها چیزی که بتوانیم بر اساس نتایج این تحلیل بگوییم این است: آیا این قرعه کشی تصادفی انجام شده است یا نه. اگر فرض کنیم افراد جامعه به صورت تصادفی در این قرعه کشی شرکت کرده اند (که به این پیش فرض هم می شود ایراد گرفت) و فرض کنیم قرعه کشی به شکل عادلانه و تصادفی انجام شده است، «درصد برندگان متولد هر استان نسبت به کل برندگان» باید به «درصد جمعیت آن استان نسبت به جمعیت کل کشور» نزدیک باشد (مبنای من جمعیت سال 1395 است که آخرین سرشماری جمعیت در کشور بوده). برای این که کمی کار را دقیق تر کنیم، متغیر اول را با «درصد جمعیت بالای هجده سال هر استان نسبت به جمعیت کل کشور» هم مقایسه می کنیم (متاسفانه آمار استانی از دارندگان گواهینامه رانندگی پیدا نکردم (در سامانه شفافیت به وزارت کشور درخواست دادم اما بعید می دانم آماری به دستم برسانند).

جزئیاتی از شرکت کنندگان در قرعه کشی

با توجه به صحبت های این جا: 5.273.856 نفر برای شرکت در این قرعه کشی ثبت نام کرده بودند. 39.018 نفر (0.7 درصد کل افراد) در قرعه کشی سایپا هم شرکت کرده بودند و حذف شدند. 345.813 نفر (6.5 درصد) هم پلاک فعال داشتند و حذف شدند و پس از طی این فرایند، 4.360.153 نفر باقی ماندند. مسئولان ایران خودرو ادعا می کنند ترتیب ثبت نام افراد به هم زده شده و از بین این ترتیب به هم زده شده، و بر مبنای خودروی انتخاب شده، 15 هزار نفر انتخاب می شوند. یعنی هر فرد 0.3 درصد شانس برنده شدن داشته است.

وضعیت شرکت کنندگان برای هر خودرو هم به شرح زیر بوده است:

  • رانا: 325.397 متقاضی (7.4 درصد از کل متقاضیان): 630 برنده (4.2 درصد از کل برندگان)
  • پژو پارس: 2.384.901 متقاضی (54.6 درصد از کل متقاضیان): 4000 برنده (26.6 درصد از کل برندگان)
  • پژو 206 معمولی: 1.050.453 متقاضی (24 درصد از کل متقاضیان): 6370 برنده (42 درصد از کل برندگان)
  • پژو 405 اس ال ایکس: 599.402 متقاضی (13.7 درصد از کل متقاضیان): 4000 برنده (26.6 درصد از کل برندگان)

از اعداد بالا اجمالن می شود نتیجه گرفت که تقاضا و عرضه تناسب کامل با هم ندارند. مثلن بیشترین عرضه مربوط به 206 بوده است اما بیشترین تقاضا پژو پارس.

اصل مطلب: برندگان از کدام استان ها بودند؟

برویم سر اصل مطلب. جدول کلی نتایج به شکل زیر است. این جدول بر اساس تعداد کدهای ملی برنده شده مرتب شده است. یعنی متولدان تهران بیشتر از همه برنده شده اند و متولدان خارج از کشور کمتر از همه.

جدول کلی نتایج
جدول کلی نتایج

بالاترین برنده خودروهای 206، رانا و پارس از استان تهران بوده اند اما درباره 405 بالاترین برنده مربوط به استان فارس است.

اما نکته جالب این جاست که اگر نسبت به جمعیت بالای هجده سال در نظر بگیریم، آمار کاملا متفاوت می شود و کرمانشاه، اردبیل و چهارمحال و بختیاری بیشترین برنده را دارند.

برندگان به ترتیب «نسبت به جمعیت بالای هجده سال»
برندگان به ترتیب «نسبت به جمعیت بالای هجده سال»

من کل اطلاعات این تحلیل را در گیتهاب گذاشتم. اگر به نظرتان تغییری لازم است یا می خواهید خودتان تحلیلی بکنید از همین جا می توانید اقدام کنید. فایل اکسل اصلی را هم در گوگل درایو گذاشته ام.


کار ممکن دیگر: حدس کدهای ملی

یکی از کارهای دیگری که می شود با این کدهای ملی کرد، حدس کدهای ملی است. در این فهرست سه رقم اول و سه رقم آخر کد ملی منتشر شده بود و چهار رقم میانی مخفی شده بود. مثلن: 228****644. گفتم که در کد ملی های ایرانی سه رقم اول کد ملی مربوط به «کد محل تولد فرد» است و آخرین رقم «رقم کنترل» است. با محاسباتی از 9 رقم دیگر (به جز رقم آخر) و مقایسه با رقم آخر، می توان پی برد که کد ملی درست است یا نه (توضیحات بیشتر در این جا). کاری که برنامه های مختلف (مثل این جا) برای بررسی صحت کد ملی انجام می دهند. در واقع این برنامه ها پایگاه داده ای از کدهای ملی ندارند. مثلن در این جا، این کد با php نوشته شده است. یکی از مثال های مرسوم فریب دادن این برنامه ها، وارد کردن عدد «1111111111» (ده یک) است. قاعدتن چنین کد ملی ای وجود ندارد اما این برنامه ها صحت این کد را تایید می کنند.

حالا یکی از کارهایی که با چنین مجموعه داده ای می توان انجام داد این است که با توجه به 6 رقم موجود، حدس بزنیم که 4 رقم پنهان شده، چند حالت معتبر (از 10 هزار حالت ممکن) دارد و چه عددهایی می تواند باشد. به این ترتیب می توان فهمید که آیا پنهان کردن این تعداد رقم، برای مخفی ماندن هویت افراد کافی است یا نه.