جهان ما مملو از نویسندگانی است که فضای فکری ما را از پشت نوشتههای روی کاغذشان شکل میدهند. نگارندگان کتب آسمانی، داستانهای کودک، شاعران، فیلسوفان، اقتصاددانان، تاریخ نگاران، رمان نویسنان، عاشقانهها، هنرمندان مانگا و ... هزاران نوع دیگری که هر یک به قدری در شکلگیری ایدئولوژی کنونی ما نقش داشتهاند.
پافشاری ما در تبدیل همه عوامل کیفی زندگی به اعداد و نگاه به همه چیز از دریچهی نمودارها؛ این هوس را ایجاد کرد که سری به دنیای نویسندگان و کتابها بزنیم. در قسمت اول از این نوشته، نگاه کلی انداختهایم به داده بیش از دویست هزار نویسنده از سراسر جهان و سعی کردهایم به ۱۰ پرسش پیش آمده، پاسخهایی ارائه دهیم.
قرار بر این نیست که این نوشته، یک متن فنی باشد. برای همین، من تا جای ممکن از درج کد و جزییات فنی خودداری میکنم. با این حال درک شیوهی جمعآوری داده برای تشخیص صحت مطالعه حائز اهمیت است.
بهترین و بزرگترین منبع برای جمعآوری داده نویسندگان و سایر داده مربوط به کتابها و کتابخوانی؛ سایت گودریدز (GoodReads) است. گودریدز علاوه بر اینکه مجموعه داده نسبتا کاملی از نویسندگان، کاربران و بازخورد کاربران به آنها دارد؛ به لحاظ فنی، امکان جمعآوری داده را نیز به راحتی فراهم کرده است. API گودریز امکان دسترسی به بخش بزرگی از این داده را میدهد و بخشهای دیگر با استفاده از BS4 قابل جمعآوری است. اسکریپت پایتون جمعآوری داده را میتوانید روی گیتهاب بیابید و خود به راحتی (با صرف کمی حوصله) آن را پیاده سازی کنید یا بهبود بدهید.
در نهایت، دادهی جمعآوری شده برای نویسندگان به فرم جدول زیر است. برای جمعآوری این حجم از داده به چیزی حدود ۸۰۰ ساعت زمان نیاز داشتیم که با توزیع روی ۱۵ سیستم ابری مختلف، این کار، سه روز طول کشید.
همانطور که میبینید دادهی ۲۰۹۵۱۷ نویسندهی مختلف جمعآوری شده است. طبیعی است که با ردیفهای خالی برای نویسندگان مواجه شویم. برای مثال ما فقط به جنسیت ۸۸۵۸۷ نویسنده دسترسی داریم و یا فقط ۷۸۸۲ نویسنده مشخص است از چه کسی در مسیر حرفهای خود تاثیر گرفتهاند و یا اینکه ۷۴۰۷۱ نویسنده، ژانر خود را مشخص کردهاند.
قبل از اینکه به سراغ سوالها و پاسخ آنها برویم، فراموش نکنید که ممکن است برای دیدن جزییات نمودارها نیاز باشد روی آنها کلیک کنید. دوست نداشتیم دادهها را به خاطر شیوهی نمایش خلاصه کنیم.
توزیع تعداد نظرات، تعداد امتیازها و تعداد دنبالکنندهها همگی از یک توزیع شبیه Power Law تبعیت میکند. برای مثال نمودار زیر را ببینید. نمودار به وضوح نشان میدهد برای تعداد بسیار زیادی از نویسندگان (بیش از صد هزار نفر) کمتر از ۱۰۰ نظر ثبت شده است و تعداد بسیار کمی از نویسندهها، تعداد نظرات بیشتری دارند. (بخشهای پایانی نمودار). این روند برای امتیازها و تعداد دنبالکنندهها نیز تکرار میشود.
اگر نویسندهها را بر اساس تعداد نظرات و امتیازهای دریافتی مرتب کنیم به نمودار زیر میرسیم.
جی.کی.رولینگ (هری پاتر) با اختلاف بیشتر از همه مورد توجه بوده است. استیون کینگ (درخشش)، سوزان کالینز (بازیهای گرسنگی)، استفانی مایر(گرگ و میش) و تالکین (ارباب حلقهها) در ردههای بعدی قرار دارند. با توجه به شهرت جهانی فیلمهای الهام گرفته شده از آثار این نویسندگان، این نتایج دور از انتظار نیستند.
توزیع میانگین رای (از ۱ تا ۵) یک توزیع نرمال با مشخصات زیر است. میانگین امتیازی که برای کتابها ثبت شده، ۳.۸۷ است.
اگر نمودار بالایی را به ترتیب امتیاز هر نویسنده مرتب کنیم به این نمودار میرسیم.
هرچند جی.کی.رولینگ صدر جدول را نگه داشته است ولی جابجایی زیادی در ردهبندی نویسندگان صورت میگیرد. برای مثال جورج. آر. آر. مارتین (بازی تخت و تاج) و خالد حسینی (بادباک باز) به رتبهی بالاتری میآیند و امتیاز بهتری دریافت کردهاند.
تعداد کتاب هر نویسنده در گودریدز معادل کتابهایی که است که منحصرا آن شخص نوشته، یا در آنها نویسندهی همکار بوده و یا ترجمه آن کتاب روی گودریدز ثبت شده است. بعنوان نمونه برای جی.کی.رولینگ، ۲۴۶ کتاب ثبت شده است که ترجمههای فارسی ویدا اسلامیه نیز بین آنها دیده میشود.
نکته این است که گودریدز امکان ثبت ترجمههای یک کتاب به عنوان Edition را به کاربران میدهد. بنابراین در حالت ایدهآل ثبت دادهها، تعداد کتابهای یک نویسنده دقیقا نشاندهندهی تعداد آثار تالیفی آن نویسنده است. با این حال به این دلیل که مجموعهدادهی گودریدز به شکل جمعسپاری و توسط کاربران پر شده است، این خطا (ثبت ترجمهها یا ویرایشهای یک کتاب به دفعات) بسیار رایج است و ما از آن چشم میپوشیم.
اما پرطرفدار بودن عبارت مبهمی است. آیا میتوان تعداد بالای دنبال کننده در گودریدز را نشان پرطرفداری دانست؟ آیا میتوان تعداد بالای نظرات ثبت شده را نشان از پرطرفداری دانست؟ آیا تعداد دفعات زیاد خوانده شدن هر نویسنده را میتوان نشان از پرطرفداری دانست؟ و آیا میتوان میانگین امتیاز را به عنوان معیاری برای پرطرفدار بودن در نظر گرفت؟
ماتریس همبستگی زیر، ممکن است دید کلی خوبی به ما ارائه دهد. این جدول به وضوح نشان میدهد که همبستگی بسیار اندکی بین تعداد کتابها (work count) و تعداد طرفداران آثار (fan count) یک نویسنده وجود دارد. (مواردی که مقدار بالای ۰.۴ دارند، پررنگ شدهاند).
لزوما پرکاری یک نویسنده به معنای شهرت او نیست!
برای اینکه بدانیم کتابهای هر نویسنده چند بار خوانده شده است، باید برای هر کتاب از هر نویسنده، تعداد دفعاتی که در قفسههای مختلف (روی گودریدز) ثبت شده است (shelved books) را استخراج کنیم و این کارِ زمان بری است. برای مثال برای استیون کینگ، ۱۶۴۸ کتاب ثبت شده است که بدست آوردن دفعات خوانده شدن برای هر کتاب ۲ ثانیه طول میکشد (حدود یک ساعت برای کل کتابها). ما این کار را فقط برای ۲۰۰ نویسندهی پرطرفدار انجام دادهایم و (همانطور که در جدول بالا میبینید) به این نتیجه رسیدیم که ارتباط نزدیکی بین تعداد نظرات ثبت شده (review count) برای هر نویسنده و دفعات اضافه شدن به کتابخانه شخصی وجود دارد.
آنچه از داده جمعآوریشده برمیآید، اطلاعات کمی برای نویسندگان قرنهای گذشته ثبت شده است. با افزایش تعداد نویسندهها در طی زمان، تعداد نظرات و آرایی که روی کتابها ثبت شده، افزایش یافته است. نویسندگانی که از سالها ۱۸۶۰ تا ۱۹۶۰ بدنیا آمدهاند، بیشترین توجه را به خود جلب کردهاند.
مشخصا نویسندگانی که بعد از حوالی سال ۱۹۶۰ بدنیا آمدهاند، کتابهای کمتری از خود به جای گذاشتهاند و یا هنوز کتابهایشان مورد توجه قرار نگرفته است.
بنابر داده جمعآوری شده، پاسخ اولیه به این سوال ساده است. نزدیک به ۸۰۰۰ نویسنده، مشخص کردهاند که از کدام نویسندههای دیگر تاثیر گرفتهاند. نمودار زیر ترتیب نویسندگانی را نشان میدهد که بیشترین اثرگذاری روی بقیه نویسندهها را داشتهاند. در این لیست تقریبا میتوان نام تمامی نویسندگان نامدار جهان را دید. (برای مشاهده دقیقتر اسامی رو تصویر کلیک کنید.)
برای نمونه فرانتس کافکا بین ۲۰ نویسندهای قرار دارد که تاثیر بیشتری روی بقیه نویسندهها داشتهاند. این در حالیست که اثری از کافکا در بین ۵۰ نویسندهی پرطرفدار روی GoodReads نیست.
تعداد نویسندگان زن و مرد تقریبا برابر و هر کدام ۴۰۰۰۰~ نفر است. تعداد انگشتشماری هم Non-Binary بین نویسندگان دیده میشود. متاسفانه جنسیتِ بخش بزرگی از نویسندگان مشخص نیست. ولی همانطور که در تصویر زیر میبینید، نویسندههایی که جنسیت مشخصی روی Goodreads برای آنها ثبت نشده است، از نویسندههای کمتر شناخته شدهای هستند که توجه چندانی به خود جلب نکردهاند.
در مجموع نویسندگان زن، هم طرفداران بیشتری دارند و هم نظرات بیشتری روی کتابهایشان ثبت شده است.
برای من، بررسی ژانر نویسندهها از بخشهای محبوب این تحلیل است. غالب بر ۷۴۰۰۰ نویسنده، ژانر مشخصی روی گودریدز دارند. داده ثبت شده برای ژانرها در گودریدز نظیر بقیه فیلدهای اطلاعاتی نیاز به پاکسازی دارد. از جمله موارد عدم تطابق، استفاده از اختصارات مختلف برای یک ژانر (نظیر sci-fi، sf، و scifi برای ژانر Science Fiction)، استفاده از عبارات مختلف برای اشاره به یک ژانر (نظیر humor و comedy) و وجود زیرمجموعههای متعدد برای یک ژانر (memoir و biography) است. برای پاکسازی این دادهها از تعریف دیکشنری و جستجو در ژانرها استفاده کردیم.
نمودار زیر تعداد کتابهای منتشر شده را در ژانرهای مختلف، به تفکیک جنسیت نویسنده، نمایش میدهد.
قضاوت و نتیجهگیری دربارهی توزیع جنسیت در ژانرهای مختلف را بر عهدهی شما میگذارم. ولی میتوان با نگاهی دقیق، به الگوهای جالبی در ژانرهای مختلف دست یافت.
نمودار زیر تعداد نظرات ثبت شده برای آرای مختلف را نمایش یدهد. کتابهای تخیلی و عاشقانه در صدر جدول و فلسفی، علمی و کسبوکار با قشر مخاطب محدودتر در قعر جدول قرار دارند.
ما دادهی تاریخ تولد برخی نویسندگان را از قرن ۶ تا ۲۰ در دسترس داریم. برای تحلیل تغییرات ژانر در طول قرنها و دههها ابتدا نگاهی داشته باشیم به نمودار راداری تعداد نویسندگان ژانرهای پرطرفدار در قرن ۲۰.
قرن ۲۰ ام فرصت بیشتری به تخیلینویسها داده است. پس از آن ادبیات، نوشته های غیرتخیلی، علمی و بیوگرافیها بیشترین تعداد نویسنده را درگیر خود کردهاند.
برای مقایسه ژانرها بین قرنهای مختلف، میتوانیم به نمودار پویای مقایسه پرطرفدارترین ژانرها را در طی زمان نگاهی بیاندازیم. توجه کنید تاریخی که اینجا مشاهده میکنید، تاریخ تولد نویسندگان است ولی روندهای جالبی در آن قابل مشاهده است.
با گذشت زمان تعداد نویسندگانی که دربارهی مباحث مذهبی و معنویات مینویسند کمتر میشوند و جای خود را به کتب علمی، تخیلی، تاریخ، بیوگرافی و ... میدهند.
با وجود اینکه محل تولد ۴۶۰۰۰~ نویسنده مشخص شده است ولی تشخیص دقیق کشور نویسندگان از روی دادهی جمعآوری شده کار دشواری بود چرا که اسامی مختلفی برای محل تولد درج شده بود. برای مثال نویسندهای که در ایران بدنیا آمده، ممکن است محل تولد خود را طهران، Teheran، تبریز یا طوس و ... ذکر کرده باشد. همین موضوع را به تمامی شهرها و کشورهای دنیا تعمیم دهید.
برای یکسان سازی و حل این مشکل ما از سرویس متنباز و رایگان به نام Geonames استفاده کردیم که دیتاست عظیمی از نام شهرهای مختلف جهان را دارد. پراکندگی نویسندگان جهان چیزی شبیه نقشه زیر است. همانطور که مشاهده میکند بیشترین تمرکز نویسندگان جهان در آمریکای شمالی و اروپا است.
نگاهی دقیقتر به تعداد نویسندگان هر کشور مشخص میکند که آمریکا با فاصله، بیشترین تعداد نویسندگان را در خود جای داده است و بریتانیا، کانادا، فرانسه و آلمان در رتبههای بعدی قرار دارند.
در صورتی که دادهی بدست آمده از محل تولد نویسندگان را با دادهی جنسیت آنها ترکیب کنیم به نمودار راداری زیر میرسیم. در این نمودار، رنگ آبی نشاندهندهی تعداد نویسندگان مرد، رنگ نارنجی تعداد نویسندگان زن و رنگ سبز نویسندگانی است که جنسیت آنها مشخص نشده است.
مشخصا با توجه به نمودار بالا، در اغلب کشورها تعداد نویسندگان مرد بر نویسندگان زن چیره است. با این وجود در برخی کشورها همچون ایالات متحده آمریکا، کانادا، استرالیا، سوئد، نیوزیلند و ژاپن تعداد نویسندگان زن و مرد برابری میکنند. در این بین حضور جاماییکا با نویسندگان زن بیشتر مورد توجه است.
حال اگر دادهی نویسندگان را بر اساس کشورها و تاریخ تولدشان ترکیب کنیم به نمودار متحرک زیر خواهیم رسید. همانطور که مشاهده میکنید، تعداد نویسندگان در کشورهای مختلف طی زمانهای مختلف تغییر کرده است.
توزیع ژانر کتابها در کشورهای مختلف وابسه به عوامل مختلفی همچون فرهنگ، وضعیت اجتماعی، اقتصادی و ... است. نمودارهای راداری زیر توزیع ژانرهای مختلف در کشورهایی از نقاط مختلف جهان را نمایش میدهند.
برای نمونه به تفاوت بین ژاپن و عربستان سعودی نگاهی بیاندازید. در ژاپن، پرطرفدارترین ژانرها مانگا و کمیک هستند، در حالی که در عربستان سعودی بعد از کتابهای تخیلی، کتب مذهبی در صدر قرار گرفتهاند.
مجموعا ۲۸۲ نویسندهی ایرانی در مجموعه داده ما دیده میشوند. از این بین، نمودار زیر نویسندگانی را نمایش میدهد که بیشتر از همه مورد توجه بودهاند و گفتگو ایجاد کردهاند.
دربارهی نویسندگان ایرانی کنجکاو شدیم که به تعداد کتابهایی که از هر نویسنده در قفسهی خوانندگان قرار گرفته است نیز، نگاهی بیاندازیم. بصورت مجزا ستون Shelved_books را برای این نویسندگان جمعآوری کردیم. همانطور که مشاهده میکنید، ترتیب نویسندگان تا حد زیادی تغییر کرده است. هر سه نفری که در صدر لیست قرار گرفتهاند از مترجمان بنام کشور هستند. برای مثال آرش حجازی، ۱۷۳۸۶۷۶ بار به لیستهای مختلف کاربران اضافه شده است.
اگر نگاهی به ژانر کتابهای منتشر شده در ایران بیاندازیم نیز به نموداری راداری پایین میرسیم. همانطوری که مشاهده میکنید، قسمت قابل توجهی شعر، ادبیات و کتب مذهبی در بین ژانر نویسندگان ایرانی دیده میشود.
با در دسترس داشتن آزاد این مجموعه داده، امکان بصریسازیهای متفاوتتر و کسب اطلاعات بیشتر امکانپذیر است. برای این کار میتوانید به راحتی این مجموعه داده را از Kaggle دانلود کنید و دست به کار شوید.
در قسمت دوم از این تحلیل، نگاهی به تحلیل متن توضیحات Bio در نویسندگان و توضیحات کتابهایی که نوشتهاند خواهیم پرداخت. سپس در قسمتهای بعدی شبکهی نویسندگانی را تحلیل میکنیم که توسط کاربران مختلف، بصورت مشترک خوانده شدهاند.