در اولین مرحله ی قرعه کشی خرید خودروی ایران خودرو (17 خرداد 1399)، فهرستی 15 هزار نفری از برندگان خرید خودرو منتشر شد. این فهرست شامل بخشی از کد ملی برندگان و خودروی برنده شده بود.
یکی از کارها تحلیل محل تولد برندگان است. در کد ملی های ایرانی سه رقم اول کد ملی مربوط به «کد محل تولد فرد» است. پس اگر این فهرست 15 هزار تایی را با فهرستی از محل تولدهای مرتبط با هر سه رقم مقایسه کنیم، می توانیم محل تولد برندگان را بفهمیم.
من فهرست معتبری از برابری سه رقم اول کدهای ملی و محل تولد پیدا نکردم. تقریبن در همه جا این فهرست تکرار شده بود که مبنای مشخصی ندارد. معلوم نیست این کدها مربوط به شهرستان است یا شهر یا منطقه. نام بعضی شهرستان ها نیامده، در بعضی موارد نام شهر آمده و در بعضی موارد نام منطقه ای که به صورت رسمی در تقسیمات کشوری اسم جدایی ندارد. در این باره با بنیامین سلیمی (که بر مبنای این فهرست، یک برنامه ی پایتونی نوشته است) سوال و جواب مختصری کردیم. همچنین 11 کد بین دو شهر یا شهرستان مشترک هستند:
نتیجه ای که من گرفتم این است که این فهرست به شکل تجربی و شهودی استخراج شده و مبنای مشخص رسمی ندارد. با این حال با این فرض که حداقل نام استان ها در این فهرست درست است، تحلیل را بر مبنای همین فهرست پیش بردم. پس هدف من از این تحلیل این است که بدانم برندگان خرید خودرو از ایران خودرو متولد چه استان هایی هستند.
واقعیت این است که این تحلیل هیچ چیز خاص و مهمی را نشان نمی دهد! چون جامعه آماری مورد تحلیل ما بسیار خاص است. از اول به این قرعه کشی نگاه کنیم: افرادی که پلاک فعال به نامشان نباشد، حداقل 18 سال داشته باشند، گواهینامه به نامشان باشد و در چند سال اخیر ماشین نخریده باشند و همزمان در طرح قرعه کشی خودروی سایپا شرکت نکرده باشند می توانستند در این قرعه کشی شرکت کنند! در مجموعه حدود 5 میلیون نفر در این طرح شرکت کردند (جزئیاتش را در بخش بعد می گویم) که از این تعداد 15 هزار نفر برنده ی خوشبخت خرید خودرو بودند! یعنی:
1- با این تحلیل نمی شود فهمید متولدان چه استان هایی به چه خودروهایی علاقه دارند (چون اولن جامعه ی آماری ما شامل همه ی متولدان این استان ها نیست و ثانین حق انتخاب فقط بین 4 خودرو بوده است).
2- با این تحلیل نمی شود فهمید ساکنان چه استان هایی به خرید چه خودروهایی گرایش دارند (چون کد ملی بر مبنای محل تولد است و نه محل سکونت).
3- با این تحلیل به طور کلی نمی شود «علاقه» یا «گرایش» افراد را سنجید (چون شرکت در این قرعه کشی و انتخاب یک خودرو علاوه بر علاقه، به قدرت خرید فرد و آگاهی اش از قرعه کشی هم بستگی دارد).
پس با این تحلیل چه چیزی را می شود فهمید؟ شاید تنها چیزی که بتوانیم بر اساس نتایج این تحلیل بگوییم این است: آیا این قرعه کشی تصادفی انجام شده است یا نه. اگر فرض کنیم افراد جامعه به صورت تصادفی در این قرعه کشی شرکت کرده اند (که به این پیش فرض هم می شود ایراد گرفت) و فرض کنیم قرعه کشی به شکل عادلانه و تصادفی انجام شده است، «درصد برندگان متولد هر استان نسبت به کل برندگان» باید به «درصد جمعیت آن استان نسبت به جمعیت کل کشور» نزدیک باشد (مبنای من جمعیت سال 1395 است که آخرین سرشماری جمعیت در کشور بوده). برای این که کمی کار را دقیق تر کنیم، متغیر اول را با «درصد جمعیت بالای هجده سال هر استان نسبت به جمعیت کل کشور» هم مقایسه می کنیم (متاسفانه آمار استانی از دارندگان گواهینامه رانندگی پیدا نکردم (در سامانه شفافیت به وزارت کشور درخواست دادم اما بعید می دانم آماری به دستم برسانند).
با توجه به صحبت های این جا: 5.273.856 نفر برای شرکت در این قرعه کشی ثبت نام کرده بودند. 39.018 نفر (0.7 درصد کل افراد) در قرعه کشی سایپا هم شرکت کرده بودند و حذف شدند. 345.813 نفر (6.5 درصد) هم پلاک فعال داشتند و حذف شدند و پس از طی این فرایند، 4.360.153 نفر باقی ماندند. مسئولان ایران خودرو ادعا می کنند ترتیب ثبت نام افراد به هم زده شده و از بین این ترتیب به هم زده شده، و بر مبنای خودروی انتخاب شده، 15 هزار نفر انتخاب می شوند. یعنی هر فرد 0.3 درصد شانس برنده شدن داشته است.
وضعیت شرکت کنندگان برای هر خودرو هم به شرح زیر بوده است:
از اعداد بالا اجمالن می شود نتیجه گرفت که تقاضا و عرضه تناسب کامل با هم ندارند. مثلن بیشترین عرضه مربوط به 206 بوده است اما بیشترین تقاضا پژو پارس.
برویم سر اصل مطلب. جدول کلی نتایج به شکل زیر است. این جدول بر اساس تعداد کدهای ملی برنده شده مرتب شده است. یعنی متولدان تهران بیشتر از همه برنده شده اند و متولدان خارج از کشور کمتر از همه.
بالاترین برنده خودروهای 206، رانا و پارس از استان تهران بوده اند اما درباره 405 بالاترین برنده مربوط به استان فارس است.
اما نکته جالب این جاست که اگر نسبت به جمعیت بالای هجده سال در نظر بگیریم، آمار کاملا متفاوت می شود و کرمانشاه، اردبیل و چهارمحال و بختیاری بیشترین برنده را دارند.
من کل اطلاعات این تحلیل را در گیتهاب گذاشتم. اگر به نظرتان تغییری لازم است یا می خواهید خودتان تحلیلی بکنید از همین جا می توانید اقدام کنید. فایل اکسل اصلی را هم در گوگل درایو گذاشته ام.
یکی از کارهای دیگری که می شود با این کدهای ملی کرد، حدس کدهای ملی است. در این فهرست سه رقم اول و سه رقم آخر کد ملی منتشر شده بود و چهار رقم میانی مخفی شده بود. مثلن: 228****644. گفتم که در کد ملی های ایرانی سه رقم اول کد ملی مربوط به «کد محل تولد فرد» است و آخرین رقم «رقم کنترل» است. با محاسباتی از 9 رقم دیگر (به جز رقم آخر) و مقایسه با رقم آخر، می توان پی برد که کد ملی درست است یا نه (توضیحات بیشتر در این جا). کاری که برنامه های مختلف (مثل این جا) برای بررسی صحت کد ملی انجام می دهند. در واقع این برنامه ها پایگاه داده ای از کدهای ملی ندارند. مثلن در این جا، این کد با php نوشته شده است. یکی از مثال های مرسوم فریب دادن این برنامه ها، وارد کردن عدد «1111111111» (ده یک) است. قاعدتن چنین کد ملی ای وجود ندارد اما این برنامه ها صحت این کد را تایید می کنند.
حالا یکی از کارهایی که با چنین مجموعه داده ای می توان انجام داد این است که با توجه به 6 رقم موجود، حدس بزنیم که 4 رقم پنهان شده، چند حالت معتبر (از 10 هزار حالت ممکن) دارد و چه عددهایی می تواند باشد. به این ترتیب می توان فهمید که آیا پنهان کردن این تعداد رقم، برای مخفی ماندن هویت افراد کافی است یا نه.