نمی دونم فیلم کشتی تایتانیک رو تاحالا دیدید یا نه. ولی خوب اگه تماشا نکردید، ماجرا از این قراره که
یه کشتی ساخته می شه و ادعا می کنند که این کشتی یکی از بهترین هاست و تقریبا امکان نداره غرق بشه و کلی تعریف و تمجید ...
اما شرایط اونطوری که ادعا می کردند اتفاق نیوفتاد. و کشتی دچار سانحه و غرق شد.
امروز دیتاستی رو از یه جایی گیر آوردم که حاوی اطلاعات مسافران این کشتی هست.
پس تصمیم گرفتم خیلی کلی تحلیلش کنم.
از متغیر هایی که در دیتاست استفاده شده، همش به دردم نمی خورد (چون می خواستم یه تحلیل کلی داشته باشم).
پس من یه پیش پردازش انجام دادم و اون قسمت هایی که نمی خواستم رو حذف کردم.
از طرفی یه جاهایی هم نیاز به تمیز کردن و رفع اشکلات داده های دیتاست داشت که اونو هم انجام دادم و بعد از انجام این کار ها، تحلیل هایی که مد نظرم بود انجام دادم.
دیتاست کشتی تایتانیک نشون می ده که این کشتی، کلاس بندی شده هست. مثلا کسی که در کلاس اول بوده پول بیشتری پرداخت کرده و جز مرفهین حساب می شده. مثل همین هواپیما سوار شدن ماها ست. اونایی که خیلی پول دارند، در قسمت first class می شینن!
از نمونه نتایجی که این تحلیل بهم داده اینا هستند :
این تحلیل رو می تونید از گیت هابم بردارید.
اگه گیت هاب محدودیت اعمال نکرده باشه، نتیجه تحلیل رو میتونید داخل گیت هاب، با باز کردنم فایلی با پسوند ipynb ، همونجا داخل سایت ببینید!
امیدوارم این نوشته براتون مفید بوده باشه.
از همراهیتون صمیمانه ممنونم ...