سعید چوبانی
سعید چوبانی
خواندن ۱۴ دقیقه·۵ سال پیش

همه‌ی نویسندگان جهان ما: تحلیل داده‌ دویست هزار نویسنده گودریدز + مجموعه‌ داده | قسمت اول ‌‌

جهان ما مملو از نویسندگانی است که فضای فکری ما را از پشت نوشته‌های روی کاغذشان شکل می‌دهند. نگارندگان کتب آسمانی، داستان‌های کودک، شاعران، فیلسوفان، اقتصاددانان، تاریخ‌ نگاران، رمان نویسنان، عاشقانه‌‌ها، هنرمندان مانگا و ... هزاران نوع دیگری که هر یک به قدری در شکل‌گیری ایدئولوژی کنونی ما نقش داشته‌اند.

پافشاری ما در تبدیل همه‌ عوامل کیفی زندگی به اعداد و نگاه به همه چیز از دریچه‌ی نمودارها؛ این هوس را ایجاد کرد که سری به دنیای نویسندگان و کتاب‌ها بزنیم. در قسمت اول از این نوشته، نگاه کلی انداخته‌ایم به داده بیش از دویست هزار نویسنده‌ از سراسر جهان و سعی کرده‌ایم به ۱۰ پرسش پیش‌ آمده، پاسخ‌هایی ارا‌ئه دهیم.

شیوه جمع‌آوری داده

قرار بر این نیست که این نوشته، یک متن فنی باشد. برای همین، من تا جای ممکن از درج کد و جزییات فنی خودداری می‌کنم. با این حال درک شیوه‌ی جمع‌آوری داده برای تشخیص صحت مطالعه حائز اهمیت است.

بهترین و بزرگ‌ترین منبع برای جمع‌آوری داده نویسندگان و سایر داده‌ مربوط به کتاب‌ها و کتاب‌خوانی؛ سایت گودریدز (GoodReads) است. گودریدز علاوه بر اینکه مجموعه داده نسبتا کاملی از نویسندگان، کاربران و بازخورد کاربران به آنها دارد؛ به لحاظ فنی، امکان جمع‌آوری داده را نیز به راحتی فراهم کرده است. API گودریز امکان دسترسی به بخش بزرگی از این داده را می‌دهد و بخش‌های دیگر با استفاده از BS4 قابل جمع‌آوری است. اسکریپت پایتون جمع‌آوری داده را می‌توانید روی گیتهاب بیابید و خود به راحتی (با صرف کمی حوصله)‌ آن را پیاده سازی کنید یا بهبود بدهید.

بخشی از داده جمع‌آوری شده از روی سایت گودریدز
بخشی از داده جمع‌آوری شده از روی سایت گودریدز


در نهایت، داده‌ی جمع‌آوری شده برای نویسندگان به فرم جدول زیر است. برای جمع‌آوری این حجم از داده به چیزی حدود ۸۰۰ ساعت زمان نیاز داشتیم که با توزیع روی ۱۵ سیستم ابری مختلف، این کار، سه روز طول کشید.

همانطور که می‌بینید داده‌ی ۲۰۹۵۱۷ نویسنده‌ی مختلف جمع‌آوری شده است. طبیعی است که با ردیف‌های خالی برای نویسندگان مواجه شویم. برای مثال ما فقط به جنسیت ۸۸۵۸۷ نویسنده دسترسی داریم و یا فقط ۷۸۸۲ نویسنده مشخص است از چه کسی در مسیر حرفه‌ای خود تاثیر گرفته‌اند و یا اینکه ۷۴۰۷۱ نویسنده، ژانر خود را مشخص کرده‌اند.

جدول داده جمع‌آوری شده از گودریدز بهمراه نام ستون‌ها و تعداد ردیف‌های موجود در هر یک.
جدول داده جمع‌آوری شده از گودریدز بهمراه نام ستون‌ها و تعداد ردیف‌های موجود در هر یک.


قبل از اینکه به سراغ سوال‌ها و پاسخ‌ آن‌ها برویم، فراموش نکنید که ممکن است برای دیدن جزییات نمودارها نیاز باشد روی آن‌ها کلیک کنید. دوست نداشتیم داده‌ها را به خاطر شیوه‌ی نمایش خلاصه کنیم.

۱. کدام نویسنده‌ها بیشترین نظرات و آرا را دریافت کرده‌اند؟

توزیع تعداد نظرات، تعداد امتیازها و تعداد دنبال‌کننده‌ها همگی از یک توزیع شبیه Power Law تبعیت می‌کند. برای مثال نمودار زیر را ببینید. نمودار به وضوح نشان می‌دهد برای تعداد بسیار زیادی از نویسندگان (بیش از صد هزار نفر) کمتر از ۱۰۰ نظر ثبت شده است و تعداد بسیار کمی از نویسنده‌ها، تعداد نظرات بیشتری دارند. (بخش‌های پایانی نمودار). این روند برای امتیاز‌ها و تعداد دنبال‌کننده‌ها نیز تکرار می‌شود.

اگر نویسنده‌ها را بر اساس تعداد نظرات و امتیازهای دریافتی مرتب کنیم به نمودار زیر می‌رسیم.

جی.کی.رولینگ (هری پاتر) با اختلاف بیشتر از همه مورد توجه بوده است. استیون کینگ (درخشش)، سوزان کالینز (بازی‌های گرسنگی)، استفانی مایر(گرگ و میش) و تالکین (ارباب حلقه‌ها) در رده‌های بعدی قرار دارند. با توجه به شهرت جهانی فیلم‌های الهام گرفته شده از آثار این نویسندگان، این نتایج دور از انتظار نیستند.
نمودار نویسندگانی که بیشترین  امتیاز (۱ تا ۵ ستاره) و نظرات را دریافت کرده‌اند.
نمودار نویسندگانی که بیشترین امتیاز (۱ تا ۵ ستاره) و نظرات را دریافت کرده‌اند.


توزیع میانگین رای (از ۱ تا ۵) یک توزیع نرمال با مشخصات زیر است. میانگین امتیازی که برای کتاب‌ها ثبت شده، ۳.۸۷ است.

اگر نمودار بالایی را به ترتیب امتیاز هر نویسنده مرتب کنیم به این نمودار می‌رسیم.

هرچند جی‌.کی.‌رولینگ صدر جدول را نگه داشته است ولی جابجایی زیادی در رده‌بندی نویسندگان صورت می‌گیرد. برای مثال جورج. آر. آر. مارتین (بازی تخت و تاج) و خالد حسینی (بادباک باز) به رتبه‌ی بالاتری می‌آیند و امتیاز بهتری دریافت کرده‌اند.


۲. آیا بین تعداد کتاب‌ها و پرطرف‌دار بودن نویسنده رابطه‌ای وجود دارد؟

تعداد کتاب‌ هر نویسنده در گودریدز معادل کتاب‌هایی که است که منحصرا آن شخص نوشته، یا در آن‌ها نویسنده‌ی همکار بوده و یا ترجمه آن کتاب روی گودریدز ثبت شده است. بعنوان نمونه برای جی.کی.رولینگ، ۲۴۶ کتاب ثبت شده است که ترجمه‌های فارسی ویدا اسلامیه نیز بین آن‌ها دیده می‌شود.

نکته این است که گودریدز امکان ثبت ترجمه‌های یک کتاب به عنوان Edition را به کاربران می‌دهد. بنابراین در حالت ایده‌آل ثبت داده‌ها، تعداد کتاب‌های یک نویسنده دقیقا نشان‌دهنده‌ی تعداد آثار تالیفی آن نویسنده است. با این حال به این دلیل که مجموعه‌داده‌ی گودریدز به شکل جمع‌سپاری و توسط کاربران پر شده است، این خطا (ثبت ترجمه‌ها یا ویرایش‌های یک کتاب به دفعات) بسیار رایج است و ما از آن چشم می‌پوشیم.

اما پرطرف‌دار بودن عبارت مبهمی است. آیا می‌توان تعداد بالای دنبال کننده در گودریدز را نشان پرطرف‌داری دانست؟ آیا می‌توان تعداد بالای نظرات ثبت شده را نشان از پرطرفداری دانست؟ آیا تعداد دفعات زیاد خوانده شدن هر نویسنده را می‌توان نشان از پرطرفداری دانست؟ و آیا می‌توان میانگین امتیاز را به عنوان معیاری برای پرطرف‌دار بودن در نظر گرفت؟

ماتریس همبستگی زیر، ممکن است دید کلی خوبی به ما ارائه دهد. این جدول به وضوح نشان می‌دهد که همبستگی بسیار اندکی بین تعداد کتاب‌ها (work count) و تعداد طرفداران آثار (fan count) یک نویسنده وجود دارد. (مواردی که مقدار بالای ۰.۴ دارند، پررنگ شده‌اند).

لزوما پرکاری یک نویسنده به معنای شهرت او نیست!
ماتریس همبستگی مجموعه داده نویسندگان
ماتریس همبستگی مجموعه داده نویسندگان


برای اینکه بدانیم کتاب‌های هر نویسنده چند بار خوانده شده است، باید برای هر کتاب از هر نویسنده، تعداد دفعاتی که در قفسه‌های مختلف (روی گودریدز) ثبت شده است (shelved books) را استخراج کنیم و این کارِ زمان بری است. برای مثال برای استیون کینگ، ۱۶۴۸ کتاب ثبت شده است که بدست آوردن دفعات خوانده شدن برای هر کتاب ۲ ثانیه طول می‌کشد (حدود یک ساعت برای کل کتاب‌ها). ما این کار را فقط برای ۲۰۰ نویسنده‌ی پرطرفدار انجام داده‌ایم و (همانطور که در جدول بالا می‌بینید) به این نتیجه رسیدیم که ارتباط نزدیکی بین تعداد نظرات ثبت شده (review count) برای هر نویسنده و دفعات اضافه شدن به کتابخانه شخصی وجود دارد.

۳. بیشتر نویسنده‌ها در کدام قرن به دنیا آمده‌اند؟

آنچه از داده جمع‌آوری‌شده برمی‌آید، اطلاعات کمی برای نویسندگان قرن‌های گذشته ثبت شده است. با افزایش تعداد نویسنده‌ها در طی زمان، تعداد نظرات و آرایی که روی کتاب‌ها ثبت شده، افزایش یافته است. نویسندگانی که از سال‌ها ۱۸۶۰ تا ۱۹۶۰ بدنیا آمده‌اند، بیشترین توجه را به خود جلب کرده‌اند.

مشخصا نویسندگانی که بعد از حوالی سال ۱۹۶۰ بدنیا آمده‌اند، کتاب‌های کمتری از خود به جای گذاشته‌اند و یا هنوز کتاب‌هایشان مورد توجه قرار نگرفته است.

تغییرات از قرن ۱۴ تا امروز
تغییرات از قرن ۱۴ تا امروز

۴. نویسنده‌ها از چه کسانی تاثیر گرفته‌اند؟

بنابر داده جمع‌آوری شده، پاسخ اولیه به این سوال ساده است. نزدیک به ۸۰۰۰ نویسنده، مشخص کرده‌اند که از کدام نویسنده‌‌های دیگر تاثیر گرفته‌اند. نمودار زیر ترتیب نویسندگانی را نشان می‌دهد که بیشترین اثرگذاری روی بقیه نویسنده‌ها را داشته‌اند. در این لیست تقریبا می‌توان نام تمامی نویسندگان نام‌دار جهان را دید. (برای مشاهده دقیق‌تر اسامی رو تصویر کلیک کنید.)

برای نمونه فرانتس کافکا بین ۲۰ نویسنده‌ای قرار دارد که تاثیر بیشتری روی بقیه نویسنده‌ها داشته‌اند. این در حالیست که اثری از کافکا در بین ۵۰ نویسنده‌ی پرطرفدار روی GoodReads نیست.


۵. توزیع جنسیت نویسندگان چگونه است؟

تعداد نویسندگان زن و مرد تقریبا برابر و هر کدام ۴۰۰۰۰~ نفر است. تعداد انگشت‌شماری هم Non-Binary بین نویسندگان دیده می‌شود. متاسفانه جنسیتِ بخش بزرگی از نویسندگان مشخص نیست. ولی همانطور که در تصویر زیر می‌بینید، نویسنده‌هایی که جنسیت مشخصی روی Goodreads برای آن‌ها ثبت نشده است، از نویسنده‌های کمتر شناخته شده‌ای هستند که توجه چندانی به خود جلب نکرده‌اند.

در مجموع نویسندگان زن، هم طرف‌داران بیشتری دارند و هم نظرات بیشتری روی کتاب‌هایشان ثبت شده است.

۶. پرتعداد‌ترین و پرطرف‌دارترین ژانرها کدام‌ها هستند؟

برای من، بررسی ژانر نویسنده‌ها از بخش‌های محبوب این تحلیل است. غالب بر ۷۴۰۰۰ نویسنده، ژانر مشخصی روی گودریدز دارند. داده ثبت شده برای ژانرها در گودریدز نظیر بقیه فیلدهای اطلاعاتی نیاز به پاکسازی دارد. از جمله موارد عدم تطابق، استفاده از اختصارات مختلف برای یک ژانر (نظیر sci-fi، sf، و scifi برای ژانر Science Fiction)، استفاده از عبارات مختلف برای اشاره به یک ژانر (نظیر humor و comedy) و وجود زیرمجموعه‌های متعدد برای یک ژانر (memoir و biography) است. برای پاک‌سازی این داده‌ها از تعریف دیکشنری و جستجو در ژانرها استفاده کردیم.

نمودار زیر تعداد کتاب‌های منتشر شده را در ژانرهای مختلف، به تفکیک جنسیت نویسنده، نمایش می‌دهد.

قضاوت و نتیجه‌گیری درباره‌ی توزیع جنسیت در ژانرهای مختلف را بر عهده‌ی شما می‌گذارم. ولی می‌توان با نگاهی دقیق، به الگوهای جالبی در ژانرهای مختلف دست یافت.


تعداد کتاب‌های موجود در ژانرهای مختلف به تفکیک جنسیت
تعداد کتاب‌های موجود در ژانرهای مختلف به تفکیک جنسیت


نمودار زیر تعداد نظرات ثبت شده برای آرای مختلف را نمایش ی‌دهد. کتاب‌های تخیلی و عاشقانه در صدر جدول و فلسفی، علمی و کسب‌وکار با قشر مخاطب محدودتر در قعر جدول قرار دارند.

تعداد نظرات ثبت شده برای ژانرهای مختلف
تعداد نظرات ثبت شده برای ژانرهای مختلف


۷. ژانر کتاب‌ها در طول زمان چگونه تغییر کرده است؟

ما داده‌ی تاریخ تولد برخی نویسندگان را از قرن ۶ تا ۲۰ در دسترس داریم. برای تحلیل تغییرات ژانر در طول قرن‌ها و دهه‌ها ابتدا نگاهی داشته باشیم به نمودار راداری تعداد نویسندگان ژانرهای پرطرفدار در قرن ۲۰.

قرن ۲۰ ام فرصت بیشتری به تخیلی‌نویس‌ها داده است. پس از آن ادبیات، نوشته های غیرتخیلی، علمی و بیوگرافی‌ها بیشترین تعداد نویسنده را درگیر خود کرده‌اند.

برای مقایسه ژانرها بین قرن‌های مختلف، می‌توانیم به نمودار پویای مقایسه پرطرفدارترین ژانرها را در طی زمان نگاهی بیاندازیم. توجه کنید تاریخی که اینجا مشاهده می‌کنید، تاریخ تولد نویسندگان است ولی روندهای جالبی در آن قابل مشاهده است.

با گذشت زمان تعداد نویسندگانی که درباره‌ی مباحث مذهبی و معنویات می‌نویسند کمتر می‌شوند و جای خود را به کتب علمی، تخیلی، تاریخ، بیوگرافی و ... می‌دهند.


۸. کدام کشورها نویسندگان بیشتری دارند؟

با وجود اینکه محل تولد ۴۶۰۰۰~ نویسنده مشخص شده است ولی تشخیص دقیق کشور نویسندگان از روی داده‌ی جمع‌آوری شده کار دشواری بود چرا که اسامی مختلفی برای محل تولد درج شده بود. برای مثال نویسنده‌ای که در ایران بدنیا آمده، ممکن است محل تولد خود را طهران، Teheran، تبریز یا طوس و ... ذکر کرده باشد. همین موضوع را به تمامی شهرها و کشورهای دنیا تعمیم دهید.

برای یکسان سازی و حل این مشکل ما از سرویس متن‌باز و رایگان به نام Geonames استفاده کردیم که دیتاست عظیمی از نام‌ شهرهای مختلف جهان را دارد. پراکندگی نویسندگان جهان چیزی شبیه نقشه زیر است. همانطور که مشاهده می‌کند بیشترین تمرکز نویسندگان جهان در آمریکای شمالی و اروپا است.

پراکندگی ۴۶۰۰۰ نفر از نویسندگان جهان به لحاظ جغرافیایی
پراکندگی ۴۶۰۰۰ نفر از نویسندگان جهان به لحاظ جغرافیایی


نگاهی دقیق‌تر به تعداد نویسندگان هر کشور مشخص می‌کند که آمریکا با فاصله، بیشترین تعداد نویسندگان را در خود جای داده است و بریتانیا، کانادا، فرانسه و آلمان در رتبه‌های بعدی قرار دارند.

در صورتی که داده‌ی بدست آمده از محل تولد نویسندگان را با داده‌ی جنسیت آن‌ها ترکیب کنیم به نمودار راداری زیر می‌رسیم. در این نمودار، رنگ آبی نشان‌‌دهنده‌ی تعداد نویسندگان مرد، رنگ نارنجی تعداد نویسندگان زن و رنگ سبز نویسندگانی است که جنسیت آن‌ها مشخص نشده است.


نمودار راداری جنسیت نویسندگان به تفکیک محل تولد
نمودار راداری جنسیت نویسندگان به تفکیک محل تولد


مشخصا با توجه به نمودار بالا، در اغلب کشورها تعداد نویسندگان مرد بر نویسندگان زن چیره است. با این وجود در برخی کشورها همچون ایالات متحده آمریکا، کانادا، استرالیا، سوئد، نیوزیلند و ژاپن تعداد نویسندگان زن و مرد برابری می‌کنند. در این بین حضور جاماییکا با نویسندگان زن بیشتر مورد توجه است.

حال اگر داده‌ی نویسندگان را بر اساس کشورها و تاریخ تولدشان ترکیب کنیم به نمودار متحرک زیر خواهیم رسید. همانطور که مشاهده می‌کنید، تعداد نویسندگان در کشورهای مختلف طی زمان‌های مختلف تغییر کرده است.

۹. توزیع ژانر کتاب‌ها در کشورهای مختلف چگونه است؟

توزیع ژانر کتاب‌ها در کشورهای مختلف وابسه به عوامل مختلفی همچون فرهنگ، وضعیت اجتماعی، اقتصادی و ... است. نمودارهای راداری زیر توزیع ژانرهای مختلف در کشورهایی از نقاط مختلف جهان را نمایش می‌دهند.

برای نمونه به تفاوت بین ژاپن و عربستان سعودی نگاهی بیاندازید. در ژاپن، پرطرفدارترین ژانرها مانگا و کمیک هستند، در حالی که در عربستان سعودی بعد از کتاب‌های تخیلی، کتب مذهبی در صدر قرار گرفته‌اند.


۱۰. درباره نویسندگان ایرانی چه می‌دانیم؟

مجموعا ۲۸۲ نویسنده‌ی ایرانی در مجموعه‌ داده ما دیده می‌شوند. از این بین، نمودار زیر نویسندگانی را نمایش می‌دهد که بیشتر از همه مورد توجه بوده‌اند و گفتگو ایجاد کرده‌اند.

نویسندگان ایرانی که بیشترین نظرات روی کتاب‌های آنها ثبت شده است.
نویسندگان ایرانی که بیشترین نظرات روی کتاب‌های آنها ثبت شده است.


درباره‌ی نویسندگان ایرانی کنجکاو شدیم که به تعداد کتاب‌هایی که از هر نویسنده در قفسه‌ی خوانندگان قرار گرفته است نیز، نگاهی بیاندازیم. بصورت مجزا ستون Shelved_books را برای این نویسندگان جمع‌آوری کردیم. همانطور که مشاهده می‌کنید، ترتیب نویسندگان تا حد زیادی تغییر کرده است. هر سه نفری که در صدر لیست قرار گرفته‌اند از مترجمان بنام کشور هستند. برای مثال آرش حجازی، ۱۷۳۸۶۷۶ بار به لیست‌های مختلف کاربران اضافه شده است.


اگر نگاهی به ژانر کتاب‌های منتشر شده در ایران بیاندازیم نیز به نموداری راداری پایین می‌رسیم. همانطوری که مشاهده می‌کنید، قسمت قابل توجهی شعر، ادبیات و کتب مذهبی در بین ژانر نویسندگان ایرانی دیده می‌شود.

جمع‌بندی و گام‌های بعدی

با در دسترس داشتن آزاد این مجموعه داده، امکان بصری‌سازی‌های متفاوت‌تر و کسب اطلاعات بیشتر امکان‌پذیر است. برای این کار می‌توانید به راحتی این مجموعه داده را از  Kaggle دانلود کنید و دست به کار شوید.

در قسمت دوم از این تحلیل، نگاهی به تحلیل متن توضیحات ‌Bio در نویسندگان و توضیحات کتاب‌هایی که نوشته‌اند خواهیم پرداخت. سپس در قسمت‌های بعدی شبکه‌ی نویسندگانی را تحلیل می‌کنیم که توسط کاربران مختلف، بصورت مشترک خوانده شده‌اند.

در نهایت

  • جمع‌آوری داده و ‌همه‌ی تحلیل‌ها و بصری‌سازی‌های انجام شده در این پست وبلاگی با همکاری ندا سلطانی صورت گرفته است.
  • سپاس‌گزار از وهاب خوش‌مقام بابت افزودن المان‌های بصری به نمودارها.

لینک‌های مرتبط

ادبیاتتحلیل دادهداده کاویعلم دادهکتاب
NLP Enthusiast | Privacy Fan
شاید از این پست‌ها خوشتان بیاید