این نوشته، متن گفتار بخش «زبانشناسی پیکرهای در عمل» در پادکست همایند است. پادکست همایند کار مشترکی از امیرحسین مجیری و حمید آقایی است و در هر قسمت آن، حمید یا امیرحسین از آخرین مقاله یا کتابی که خواندهاند حرف میزنند. وجه مشترک همهی این مقالات و کتابها، زبانشناسی و علوم داده است. پادکست همایند هنوز منتشر نشده است.
[مطلب مرتبط: مراحل انجام پژوهش پیکره ای]
زبان شناسی پیکرهای در عمل کتابی است که انتشارات راتلج در سال 2015 منتشر کرده است. این کتاب به عنوان منبع کارشناسی و کارشناسی ارشد درس زبان شناسی پیکره ای در ایران ترجمه شده است. هدف از تالیف این کتاب، آماده سازی دانشجویان برای کار عملی با پیکره است. به اعتقاد نویسندگان، بسیاری از دانشجویان مزایای استفاده از پیکره را می دانند اما توانایی کار با پیکره، ساخت پیکره و تفسیر نتایج آن را ندارند. در کتاب با پیکره های عمومی دانشگاه بریگم یانگ، نرم افزار انت کانک و نرم افزار SPSS کارهای عملی انجام می شود.
کتاب سه بخش اصلی و نه فصل دارد:
هیچ کدام از معرفی کتاب ها یا خلاصه کتاب های ما جایگزین کتاب نیستند اما این کتاب به شکل خاص از مخاطبش می خواهد که فقط خواننده نباشد و پروژه های کتاب را خودش انجام بدهد و یاد بگیرد. مسئله ای که از اسم کتاب (doing corpus linguistics) هم مشخص است. پس ما اگر هم بخواهیم، نمی توانیم کل کتاب را به شکل صوتی خلاصه کنیم. به هر حال رویکرد ما هم این نیست.
پیکره ها به خاطر این که حجم زیادی از اطلاعات زبانی را در اختیار پژوهشگر قرار می دهند و ابزارهای پیکره ای به خاطر این که انواع روش های تحلیل این حجم اطلاعات را ارائه می دهند، همیشه جذابند و در کار با آن ها این خطر وجود دارد که پژوهشگر مسحور داده ها و نرم افزارها بشود و مبنای تحلیل و رویکردهای نظری را فراموش کند. بنابراین به نظر من یادگیری چارچوب های نظری تحلیل پیکره و نقشه راه استفاده از آنها، مهم تر از یادگیری کار با پیکره است. چون کار با پیکره را با کمی آزمون و خطا و به اصطلاح بازی کردن با ابزار می شود یاد گرفت اما اگر بدون چارچوب نظری و داشتن مبنایی تحلیل، سراغ پیکره ها برویم ممکن است دست به تعمیم های افراطی بزنیم و به جای کار علمی، کاری شبه علمی تولید کنیم.
برویم سراغ خود کتاب: زبان شناسی پیکره ای در عمل.
در فصل اول درباره ی زبان و پیکره صحبت می شود. همه ی آدم ها از زبان برای ارتباط استفاده می کنند اما توصیف زبان کار راحتی نیست. اصلن یکی از جنبه های اصلی مطالعه علمی زبان یا همان زبان شناسی، توصیف زبان است. چه می شود که «s» جمع در انگلیسی گاهی صدای س می دهد و گاهی صدای ز؟ چرا جمله ی «هیچکس این جا نیست» درست است اما جمله ی «هیچ کس این جا هست» غلط است؟ چرا وقتی به دوستمان پیامک می دهیم که فردا نمی توانیم سر قرار برویم، می نویسیم: «زیاد رو به راه نیستم. فردا کنسله». اما اگر بخواهیم به استادمان پیام بدهیم و همین حرف را بزنیم، لحنمان عوض می شود؟ همهی ما تقریبن همهی این الگوهای ناپیدا یا implicit patterns مربوط به زبان خودمان را بلدیم اما لزومن نمی توانیم دلیلشان را توضیح بدهیم.
از طرف دیگر خیلی وقت ها افرادی قواعدی را برای زبان مطرح می کنند که ما به کار نمی بریم اما آنها معتقدند باید به کار ببریم. انگار اصولی برای حرف زدن یا نوشتن وجود دارد که آنها بلدند و ما بلد نیستیم. رویکرد اول که سعی می کند الگوهای زبانی را توصیف کند، توصیفی یا descriptive نام دارد و رویکرد دوم تجویزی یا prescriptive. هر دو رویکرد مفیدند اولی برای این که بفهمیم زبان را چطور به کار می بریم بدون این که بخواهیم در این باره قضاوتی بکنیم و دومی برای وقتی که می خواهیم ارتباطمان موثر باشد. مثلن وقت نوشتن یک نامه ی اداری بهتر است از یک متخصص کمک بگیریم تا نامهی ما تاثیرگذار بشود. اما وقتی کسی میگوید قواعد زبانی باید این طور که من می گویم رعایت شوند، باید حواسمان به یک مفهوم باشه: گوناگونی زبانی یا language variation. فارسی رسمی با فارسی غیررسمی، فارسی 200 سال پیش با فارسی الان یا فارسی تهرانی با فارسی اصفهانی فرق دارد. حتا لحن یک نفر در توئیت زدن با پیام رسمی اش فرق دارد. کار این کتاب بررسی این گوناگونی های زبانی با استفاده از زبان شناسی پیکره ای است.
در این رویکرد میخواهیم گونه های مختلف زبانی را بشناسیم و تفاوت هایشان را با بررسی حجم زیادی داده بفهمیم. مثلن تفاوت نوشتار و گفتار. یا متن خبری با متن دانشگاهی. یا گفت و گوی روددررو با سخنرانی. این کار را با بررسی مجموعه ای از نمونه های زبانی انجام می دهیم که بازنمایانگر زبان هستند. در واقع پیکره ما باید representative باشد و بتوانیم بگوییم این مجموعه داده «مشت نمونه ی خروار» است. برای این کار تعداد زیادی متن را از بافت های یکسان انتخاب می کنیم و سعی می کنیم الگوهای تکراری آنها را استخراج کنیم. مثلن بررسی می کنیم یک واژه ی خاص بیشتر کنار چه واژه هایی قرار می گیرد یا می توانیم بفهمیم دستورهای تجویزی تا چه حد و در چه بافت هایی درست هستند.
اما به چه پژوهش هایی می شود گفت پژوهش پیکره ای؟ زبان شناسی پیکره ای 4 ویژگی اصلی دارد. اول این که تجربی است و الگوهای واقعی کاربرد در زبان طبیعی را بررسی می کند. دوم این که روی مجموعهی بزرگی از متنهای طبیعی که به شکل اصولی جمع شدند کار می کند. سوم این که از رایانه برای تحلیل استفاده می کند و چهارم این که هم مبتنی بر تحلیل کمی است و هم کیفی.
علاوه بر این بین خواندن یک متن و استفاده از رویکرد پیکره ای تفاوت مهمی وجود دارد. ما یک متن انگلیسی را از چپ به راست و به صورت افقی می خوانیم و مثلن بعد از خواندن یک مقالهی روزنامه ای می توانیم بگوییم که دیدگاه نویسنده اش چه بوده. اما در رویکرد پیکره ای تعداد زیادی متن را جمع می کنیم و بخش های مربوط به یک ویژگی خاص آنها را لیست می کنیم. در واقع آنها را عمودی می خوانیم.
دو رویکرد عمده ی تحلیل پیکره ای، تحلیل پیکره بنیان یا corpus based و تحلیل مشتق از پیکره یا corpus driven است. در رویکرد پیکره بنیان از قبل دنبال چند ویژگی زبانی مشخص می گردیم و همان ها را در پیکره دنبال می کنیم. مثلن کاربرد یک واژه ی خاص یا یک مقوله ی دستوری مشخص. اما در رویکرد مشتق از پیکره، از خود پیکره کمک می گیریم که الگوهای زبانی مشترک بین متن هایش را نشان بدهد. مثلن واژه های مختلفی را که در کنار هم می آیند یا عبارات واژگانی مرسوم را لیست می کنیم تا ببینیم معمولن چه واژه هایی کنار هم قرار می گیرند. در ابتدای فصل سوم کتاب «آشنایی با زبان شناسی پیکره ای» آزاده میرزایی درباره درباره ی این دو نوع تحلیل پیکره ای، یعنی پیکره بنیان و مشتق از پیکره حرف می زنیم.
پس تا این جا فهمیدیم که رویکرد ما در زبان شناسی، توصیف زبان است و در پیکره ها که مجموعه ای عظیم از داده های زبانی هستند دنبال الگوهای زبانی می گردیم تا بتوانیم گوناگونی زبان را توصیف کنیم.
فصل دوم کتاب زبان شناسی پیکره ای در عمل، درباره ی تحلیل سیاق است. گفتیم که رویکرد این کتاب بررسی گوناگونی زبان با استفاده از حجم زیادی از داده های زبانی یا همان پیکره است. وقتی می گوییم گوناگونی، منظورمان انواع تفاوت های زبانی است. مثلن سبک حرف زدن چرچیل با مارتین لوترکینگ فرق دارد.
[صدای چرچیل – صدای مارتین لوترکینگ]
یا گونه انگلیسی آمریکایی با بریتانیایی فرق دارد.
[نمونه انگلیسی آمریکایی و بریتانیایی]
وقتی میخواهیم تفاوت زبان را بر اساس متغیرهایی مثل جغرافیا، سن، جنسیت یا موقعیت اجتماعی و اقتصادی بررسی کنیم، در واقع داریم تحلیل جامعه شناسی زبان انجام می دهیم. اما اگر علاوه بر این متغیرهای اجتماعی، بافت را هم بررسی کنیم، رویکرد ما تحلیل سیاق می شود. سیاق یک گونه ی زبانی است که با توجه به یک بافت مشخص و زبان به کار رفته در آن بافت، تعریف می شود. سیاق علاوه بر متغیرهای اجتماعی، متغیرهای دیگری مثل موضوع، هدف ارتباط و شیوه ی ارتباط را هم در بر می گیرد. به جز این، تحلیل سیاق برای بررسی تفاوت های زبانی از پیکره استفاده می کند و همین باعث می شود طیف گسترده تری از مولفه های زبان را شامل بشود. تحلیل سیاق این را هم بررسی می کند که کدام ویژگی های زبانی با هم اتفاق می افتند.
تحلیل سیاق 3 بخش اصلی دارد: اول تحلیل بافتی که متن در آن تولید می شود. دوم تحلیل ویژگی های زبانی دیدهشده در آن بافت و سوم تفسیر نقش گرا از رابطه بین بافت و زبان.
سیاق با ژانر و سبک هم فرق دارد. تاکید ژانر روی ویژگی های زبانی است که در نوع خاصی از متن ها می آیند و الزامن فراگیر نیستند. مثلن «یکی بود یکی نبود» مشخص می کند که با ژانر داستانی طرفیم. سبک هم زبان نویسنده های مختلف یا عوامل تاریخی موثر بر نویسنده ها را بررسی می کند. مثلن سبک شکسپیر متفاوت از بقیهی نویسنده هاست. سیاق مفهومی فراتر از دو مفهوم ژانر و سبک است.
برویم سراغ اولین بخش تحلیل سیاق یعنی تحلیل بافت. در بافت، ما هفت متغیر اصلی داریم:
پس اگر بخواهیم یک بار دیگه مرور کنیم، تحلیل سیاق برای تحلیل بافت هفت تا متغیر دارد. مشارکان، رابطه ی بین مشارکان، کانال ارتباطی، شرایط تولید، وضعیت، اهداف ارتباطی و موضوع.
با چند مثال این متغیرها واضح تر می شوند. مثلن در مقایسهی ایمیل دوستانه و ایمیل به رئیس اداره میفهمیم که رابطه ی بین مشارکان در ایمیل دوستانه برابر و خصوصی است یعنی دو طرف در شرایط یکسانی قرار دارند و با هم دوست هستند اما در ایمیل به رئیس اداره، رئیس قدرت بیشتری نسبت به کارمندش دارد و نوع رابطه هم حرفه ای است و نه دوستانه. شرایط تولید این دو متن هم با هم فرق دارد. ایمیل دوستانه لزومن از قبل ویرایش نشده چون اگر حتا غلط هم داشته باشد، برای طرف مقابل چندان مهم نیست اما نامه به رئیس اداره (به خصوص اگر درباره ی افزایش حقوق یا وام یا چنین چیزی باشد) قبل از ارسال به دقت ویرایش شده است. در مقایسهی نوشتار خبری و برنامه گفت و گوی خبری، کانال ارتباطی اولین مورد (نوشته خبری) نوشتاری است و کانال ارتباطی دومین مورد (گفت و گوی خبری) گفتاری. تعامل بین مخاطبان در اولی ممکن نیست و در دومی ممکن است. مشارکان در متن خبری در یک مکان نیستند اما در گفت و گوی خبری حداقل گوینده و شنونده در یک مکان هستند (اگر مخاطبان تلویزیونی را در نظر نگیریم) و بنابراین وضعیت این دو متن متفاوت است. بین ارائه ی استاد در کلاس درس و ارائه ی دانشجو در همایش هم از نظر رابطه ی بین مشارکان، اهداف ارتباطی و شرایط تولید تفاوت هایی وجود دارد. در کتاب، شباهتها و تفاوت های این سیاق ها از نظر هر هفت متغیر تحلیل بافت در جدولهایی آورده شده است.
مرحله ی دوم تحلیل سیاق، تحلیل زبانی است. مثلن گفت و گوی خبری نسبت به نوشتاری خبری، ضمیرهای اول شخص بیشتری دارد یا تراکم واژگانی در سخنرانی دانشجو در همایش بیشتر از سخنرانی استاد در کلاس است.
مرحله ی سوم تحلیل سیاق تفسیر علت این تفاوت هاست. در گفت و گوی خبری، مشارکان معمولن برای پیشبردن بحث به خودشان ارجاع می دهند چون شیوه ی بحث، گفتاری است. در سخنرانی دانشجو، تراکم واژگانی بیشتر است چون دانشجو متن سخنرانی را از قبل به دقت تنظیم کرده است.
در این مثال ها و بعضی پژوهش های واقعی، روی چند ویژگی محدود زبانی برای مقایسه کار شده. می دانیم که نمی شود صرفن بر اساس یک یا چند ویژگی محدود زبانی، توصیف جامعی از گوناگونی زبانی ارائه داد. چون اولن نمی توانیم از قبل بدانیم کدام ویژگیِ زبانیِ شاخص، تفاوت بین موقعیت های مورد مقایسه است و ثانین ویژگیهای زبانی معمولن با هم مرتبطند و نمی شود جداگونه بررسی شان کرد. اما در این کتاب، تاکید روی همین ویژگی های منفرد است چون ساده ترند و این کتاب هم برای مخاطبان تازه کار نوشته شده و نه حرفه ای ها.
بخش دوم کتاب، شامل تمرین ها و پروژه های عملی با استفاده از پیکره های موجود زبان انگلیسی است. طبعن چون این موارد به صورت عملی هستند نمیخواهیم در این پادکست به آنها بپردازیم اما نکته ی مهم این است که نسخه ی قدیمی پیکره های بریگم یانگ از جمله COCA (پیکره ی انگلیسی آمریکایی معاصر) امکانات رایگان بیشتری داشته و رابط کاربری اش هم کمی متفاوت بوده. الان با وارد شدن به آدرسی که در کتاب نوشته شده یعنی corpus.byu.edu به سایت English-corpora.org منتقل می شیم. سایت word and phrase هم که بعضی تمرین های کتاب از آن است، الان به بخشی از این سایت جدید تبدیل شده است. در سایت جدید، برای استفاده از امکانات سایت، علاوه بر عضویت، باید نام دانشگاه خودتان را هم بنویسید. گرچه می توانید نام هر دانشگاهی را انتخاب کنید یا خودتان اسم جدیدی بنویسید. همچنین استفاده ی رایگان از امکانات سایت محدودیت های روزانه دارد و گاهی هم وسط جستجو، به جای نتایج، پیام خریدن اشتراک نمایش داده می شود. سایت روی باز کردن لینک ها در صفحات جدا هم حساس است و گاهی امکان این کار را نمی دهد. همان طور که گفتم رابط کاربری سایت هم نسبت به توضیحات کتاب، تغییر کرده و نمی توانید به کتاب به شکل یک خودآموز گام به گام نگاه کنید. اما نگران نباشید! کمی با سایت دست و پنجه نرم کنید تا امکاناتش دستتان بیاید. من هم سعی می کنم به زودی آموزش ویدئویی کار با سایت را آماده و منتشر کنم.
به هر حال در فصل سوم چند مفهوم پیکره ای معرفی شدند و برای هر مفهوم چند مثال عملی زده شده است. در پادکست مربوط به «واژهنامهی زبانشناسی پیکره ای» دربارهی مفاهیم زبان شناسی پیکرهای بیشتر صحبت میکنم. مفهوم اولی که در کتاب از آن صحبت میشود KWIC یا Keywords in Context یا کلیدواژه ها در بافت است که نشان می دهد کلمه ی مد نظر ما در کدام یکی از جمله های پیکره آمده و کلمات قبل و بعد از آن چه بوده اند. مثلن می توانیم با این ابزار بفهمیم که said و stated که هر دو معنی مشابهی دارند، در چه بافتهایی به کار می روند یا در واقع کلمات راست و چپ شان چه هستند و از نظر دستوری، چه نوعی هستند. مثلن اسم هستند، صفتند، ضمیرند یا چیزهای دیگر. در کتاب POS یا Part of Speech «برچسب مقولههای نحوی» ترجمه شده. فکر می کنم بهتر بود در کتاب همان ترجمه ی مرسوم «برچسب اجزای کلام» را می گذاشتند چون نحو بیشتر به روابط کلمات در سطح جمله می پردازد.
مفهوم دوم «همایند»ها یا باهمآییها یا collocationهاست. کلمه هایی که معمولن در کنار هم می آیند، همایند هستند. معمولن یعنی به اندازه ای کنار هم بیایند که دیگر نتوانیم بگوییم این کنار هم آمدنشان تصادفی است. مثلن در ترکیب powerful computers دو کلمهی powerful و computers همایند هم هستند. در مقابل با این که strong با powerful هم معنی است در انگلیسی، عبارت strong computers گفته نمی شود. یعنی این دو کلمه همایند نیستند.
مفهوم سوم «چندنگاشتی»ها یا n-gramهاست. یعنی توالی چند واژه که در کنار هم می آیند و با هم بررسی میشوند. البته این جا برای سادگی گفتیم توالی چند واژه. وگرنه n-gramها را در سطح حرف هم می شود بررسی کرد. وقتی می گوییم n منظورمان تعداد واحدهای مورد بررسی است. مثلن اگه واحد را همان واژه در نظر بگیریم، بررسی یک نگاشتی یا uni-gram یعنی بررسی تک واژه ها که همان بررسی کلیدواژه در بافت یا KWIC است که گفتیم. دونگاشتی یا bi-gram یعنی بررسی دو واژه ای ها و سه نگاشتی یا tri-gram یعنی بررسی سه واژه ای ها. فرق دو نگاشتی با همایند این است که منظورمان از همایند دو واژه است که معمولن و به شکل غیرتصادفی کنار هم می آیند اما دونگاشتی یعنی هر دو واژه ای که کنار هم می آیند. حالا اگر در یک پیکره دونگاشتی های پربسامد را ببینیم احتمالن همان همایندها را پیدا کردیم. مثلن در جمله «امروز زود سر کار رفتم»، «امروز زود»، «زود سر»، «سر کار» و «کار رفتم» همگی دونگاشتی هستند اما اگر بررسی پیکره ای کنیم و صدها جمله ی دیگر را بررسی کنیم، احتمالن می فهمیم که «سر کار» بسامد بیشتری در بین دونگاشتی های جمله های مورد بررسی دارد. یعنی در جملات بیشتری تکراری شده و در نتیجه دو واژهی «سر کار» همایند هستند. با بررسی سهنگاشتیها هم می توانیم ترکیب های سه واژه ای پربسامد زبان را بفهمیم. مثلن by the way یا what would you. میشود n را در اننگاشتی بالاتر هم برد و 4 نگاشتی، 5 نگاشتی و مقادیر بیشتر را هم بررسی کرد اما طبیعتن تعداد ترکیب های طولانی که به شکل غیرتصادفی به تعداد زیاد کنار هم بیایند، زیاد نیست.
چهارمین و آخرین مفهومی که در این فصل بررسی شده، POS یا اجزای کلام است. در پیکره ها معمولن واژه ها برچسب POS میخورند و مشخص می شود که اسم، صفت، فعل، قید یا چیزهای دیگر هستند. این جوری میشود از ابزار جستجوی پیکره، مثلن if you look at را فقط در مواردی جستجو کرد که بعد از این عبارت، یک اسم بیاید.
فصل چهارم هم باز کارهای عملی با پیکره های موجود ادامه پیدا می کند اما این بار پروژه های کاربردی تر معرفی می شوند. مثلن در بخش پروژه های واژهبنیان و عبارتبنیان، واژه های پرکاربرد در دوره های تاریخی مختلف. یا معناهای مختلف یک واژه در بافتهای مختلف. یک مثال کاربردی این بخش، بررسی کاربرد پسوند gate هست. این پسوند در اصطلاح مشهور Watergate اومد و بعد از آن در بافت های مختلف به واژه های مختلف اضافه شد. در بررسی های واژه بنیاد باید حواسمان باشد که اگر میخواهیم بسامد یک واژه را بسنجیم، باید بسامد نرمال شده را بسنجیم تا امکان مقایسه بین بسامد واژه های مختلف باشد. یعنی مثلن بگوییم میزان استفاده از این واژه در یک میلیون واژه چند تا بوده. در بخش پروژه های دستور بنیان هم پروژه های جالبی آمده است. مثلن ساخت های دستوری مختلفی که بعد از begin، start و continue می آیند یا مطابقت فاعل و فعل از نظر شمار در مورد اسمهای جمع.
می رسیم به بخش سوم کتاب که در آن قرار است ساخت پیکره ی خودمان را یاد بگیریم و بتوانیم نتایج پژوهشمان را گزارش کنیم. نویسنده توصیه می کند که قبل از شروع کار ساخت پیکره، حواسمان به حقوق نشر متنهایی که میخواهیم جمع کنیم باشد. اما اولین قدم برای ساخت پیکره، پیدا کردن موضوع پژوهش و انگیزهی پژوهش است. مثلن شاید بخواهیم بفهمیم آیا کاربرد زبان در بین افرادی که باورهای سیاسی و مذهبی مختلفی دارند، متفاوت است یا نه. پس موضوع پژوهشمان این می شود که بین گونه های زبانی سیاسی و اعتقادی مختلف، چه تفاوت های زبانی ای وجود دارد. یا مثلن میخواهیم بدانیم بین زبانی که در شبکه های اجتماعی به کار می رود با زبان گفتاری و نوشتاری چه شباهت ها و تفاوت هایی وجود دارد پس موضوع پژوهشمان این می شود که پست های شبکه های اجتماعی شبیه زبان گفتاری هستند یا نوشتاری.
چون رویکرد این کتاب، تحلیل سیاق است، پس قالب همه ی موضوعات پژوهشی که با استفاده از این کتاب، انتخاب می شوند، این طور هستند: «بررسی میزان اثرگذاری متغیرهای موقعیتی بر ویژگی های زبان شناختی متفاوت به دلایل نقش گرا». موضوع مهم دیگر این است که انگیزه و توجیه پژوهشمان را باید بدانیم. مثلن اگر تفاوت زبان افراد با باورهای سیاسی و مذهبی مختلف متفاوت است، چه نتیجه ای می توانیم بگیریم؟ پیدا کردن این انگیزه ها، برای توجیه کار روی این موضوع (به ویژه اگر قرار است بودجه ای برای آن تصویب بشود) مهم است. و در نهایت یک نکته ی اجرایی هم در انتخاب موضوع مهم است. این که برای کار خود، می توانید به اندازهی کافی متن جمع آوری کنید؟ آیا به اندازه ی کافی متن رایگان قابل استفاده در پژوهش وجود دارد؟
وقتی میخواهیم متن هایی با ویژگی های مختلف را با هم مقایسه کنیم، باید به تعادل پیکره هم توجه کنیم. مثلن اگر قرار است روزنامههای دوره های زمانی مختلف را بررسی کنیم، باید از هر دوره ی زمانی به تعداد مساوی کلمه انتخاب کنیم تا تعداد کلمه روی پژوهش ما تاثیر نگذارد.
وقتی میخواهیم متن های پیکره ی خودمان را انتخاب کنیم، متن ها نباید چیزهای اضافه داشته باشند. مثلن اگر متن را از یک صفحه ی وب بر می داریم باید تگ های HTML آن را حذف کنیم. تگ هایی که حالات متن مانند پررنگ بودن یا لینک به صفحات دیگه، یا کد نمایش عکس را نشان می دهند. برنامه های زیادی برای تبدیل فرمت های مختلف (مثل pdf، doc و docx) به فرمت ساده ی متنی (یعنی txt) وجود دارند. از جمله برنامه ی AntFileConverter که در کتاب معرفی شده است.
حالا وقتش است که یک الگو برای تعیین جا و نام گذاری فایل های متنی پیکره مان انتخاب کنیم. مثلن اگر میخواهید متن های دورههای مختلف را مقایسه کنید، یا باید فایل های هر دوره را در یک پوشه ی جدا بگذارید یا اسم فایل ها را طوری انتخاب کنید که نشان بدهد مربوط به کدام دوره هستند. در واقع نوعی طرحوارهی رمزگذاری برای انتخاب نام فایل. همچنین می توانید با توجه به موضوع پژوهشتان، اطلاعاتی را به هر فایل اضافه کنید. مثلن این که این فایل موضوعش چیست یا نویسنده اش کیست اما باید حواستان باشد که این اطلاعات در تحلیل پیکره ای جزو متن محسوب نشوند. برای این کار در نرم افزارهایی مثل AntConc راهکارهایی مشخص شده. در کل در این بخش از نرم افزارهای طراحی شده ی لارنس آنتونی استفاده می شود که معروف ترینشان انت کانک است. آقای آنتونی تا الان نزدیک به 20 نرم افزار مختلف طراحی کرده که تقریبن همهی آنها رایگانند. امیدوارم به زودی بتوانم آموزشهای ویدئویی این نرم افزارها را هم منتشر کنم.
فصل ششم و هفتم درباره ی آمار صحبت می کند. این دو بخش در تحلیل نتایج خیلی مهم هستند اما هم در متن اصلی کتاب و هم در ترجمهاش اشتباهاتی شده که باعث می شود توصیه کنم با دقت این دو فصل را بررسی کنید. من موارد اشتباه یا سوال برانگیزی را که خودم استخراج کردم در قالب یک پست در وبلاگ همایند منتشر می کنم اما توصیه می کنم به ویژه مطالعه ی فصل هفتم را در کنار متن اصلی انگلیسی کتاب انجام بدهید تا مشکلی در یادگیری مفاهیم پیش نیاید. ژی لن در نقدش بر کتاب، از این که ممکن است این بخشهای آماری برای خوانندهی تازهکار کمی پیچیده باشه حرف زده. در پایان این دو فصل، روش انجام تحلیل ها در نرم افزار SPSS هم پرداخته شده. من در این جا، کمی از مفاهیم ساده ی آماری را توضیح می دم اما قطعن برای فهم بهتر باید خودتان دست به کار شوید و کارهای آماری را انجام بدید. در توضیح کتاب «آمار در زبان شناسی کاربردی» (که امیدوارم به زودی منتشرش کنیم) بیشتر درباره ی جزئیات آمار صحبت می کنم.
اول به این سوال جواب بدیم که اصلن چرا باید سراغ تحلیل آماری بریم؟ اگر بنا به تحلیل کمّی است که میتوانیم یک جدول بکشیم و بگوییم چیزهایی که ما دنبالشان بودیم چند بار تکرار شدند و درصدشان چقدر بوده و بعد هم یک نمودار میله ای یا دایره ای بکشیم و تمام. اما نکته این جاست که ما فقط برای داده های خودمون تحقیق نمی کنیم. ما میخواهیم به یک سوال کلی جواب بدیم و برای همین باید نتایجمان قابل تعمیم باشند. یعنی بتوانیم بگوییم اگر همین پژوهش با داده های دیگر انجام بشود، با دقت 95 یا 99 درصد همین نتایج به دست می آیند. این جاست که آمار به کمک ما می آید.
اول باید چند مفهوم کلی را یاد بگیریم. مثلن انواع متغیرها. وقتی ما میخواهیم در پژوهشمان تاثیر یک یا چند متغیر را روی یک یا چند متغیر دیگر بسنجیم، متغیرهای اول مستقل نام دارند و متغیرهای دوم وابسته. مثلن وقتی می گوییم تاثیر جنسیت بر روش کاربرد زبان، جنسیت یک متغیر مستقل است (یعنی مستقل از پژوهش ما هم وجود دارد) و کاربرد زبان متغیر وابسته (یعنی ما در پژوهشمان تغییراتش را نسبت به متغیر مستقل میخواهیم بسنجیم). متغیرهای تعدیل کننده، کنترل و مداخله گر هم انواع دیگر متغیر هستند که وقتی با تعداد بیشتری متغیر سروکار داشته باشیم، سراغشان می رویم.
متغیرها از نظر مقیاس هم با هم متفاوتند. بعضی متغیرها اسمی هستند یعنی ارزش عددی ندارند. مثلن متغیر جنسیت، می تواند حالت های مختلف بگیرد و ما هم می توانیم برای هر کدام از این حالت ها یک عدد در نظر بگیریم مثلن بگوییم جنسیت مرد عدد 1، جنسیت زن عدد 2 و بقیه ی جنسیت ها عدد 3. اما این عددها هیچ مفهوم خاصی ندارند. نه نسبت به هم برتری دارند یا می شود عملیات ریاضی روی آنها اجرا کرد. صرفا یک برچسب هستند. بعضی متغیرها ترتیبی هستند. یعنی نسبت به هم اولویت و ترتیب دارند اما باز هم نمی توانیم بگوییم چقدر نسبت به هم اولویت دارند. مثلن سطوح مختلف زبانی. کسی که در سطح میانی هست بیشتر از کسی که در سطح مقدماتی هست، زبان بلد است اما دقیق مشخص نیست چقدر بیشتر و همچنین نمی شود گفت سطح میانی همان قدر بیشتر از سطح مقدماتی است که سطح پیشرفته بیشتر از سطح میانی است. و در نهایت متغیرهای عددی را داریم که عدد هستند و هم فاصله هایشان مشخص است و هم می شود جمع و تفریق و ضرب و تقسیمشان کنیم. مثلن این که یک جمله در چند ثانیه بیان می شود با یک عدد مشخص می شود که مفهوم عددی هم دارد.
هر متغیر سطوح مختلفی دارد یا می توانیم سطوح مختلفی به آن نسبت بدهیم. مثلن در مورد همون جنسیت، آن اعدادی که گفتیم سطوح مختلف جنسیت هستند (باز هم باید تاکید کنیم که این سطوح فقط برای تمایز انواع جنسیت است و به معنی اولویت داشتن یکی بر دیگری نیست). علاوه بر این مفهومی به نام مشاهده هم داریم. هر مشاهده یعنی یک ردیف داده. مثلن اگر بخواهیم تاثیر سن بر کاربرد تعداد اسم های مفرد را بسنجیم، یه مشاهده «یک فرد 12 ساله است که 20 بار اسم مفرد به کار برده» و یک مشاهده ی دیگر یک فرد 25 ساله است که 64 بار اسم مفرد را به کار برده است.
خب اولین قدم در انجام تحلیل های آماری، به دست آوردن سنجه های گرایش به مرکزی و پراکندگی است. گرایش به مرکز یعنی مقدار یک متغیر در یک مشاهده چقدر به مرکز داده های جمع آوری شده نزدیک است. ما معمولن با یکی از این سنجه ها آشنا هستیم. میانگین یا معدل که از جمع همه ی داده ها و تقسیم بر تعداد داده ها به دست می آید. سنجه های دیگر مد و میانه هستند. در کتاب مفهوم چارک ها هم به خوبی توضیح داده می شود. سنجه های پراکندگی معروف هم دامنه، واریانس و انحراف معیار هستند. به طور خلاصه این سنجه ها نشان می دهند که داده های ما چقدر پراکنده هستند و چقدر از مرکز داده ها فاصله دارند. هدف ما از بررسی این سنجهها، پیدا کردن دیدی کلی نسبت به کل داده ها است. ما میخواهیم بدانیم داده ها بیشتر نزدیک به چه مقداری هستند یا چقدر پراکنده هستند. در حالت عادی، داده ها در جهان واقعی به صورت نرمال پخش یا توزیع می شوند. یعنی مثلن اگر قد همه ی آدم ها را اندازه بگیریم، بیشتر مردم قد متوسطی دارند، تعداد کمی قد خیلی بلند و تعداد کمی هم قد خیلی کوتاه. یعنی اگر روی نموداری میله ای تعداد آدم های مختلف با قدهای مختلف را نشان بدهیم، و نقاط بالای میله ها را به هم وصل کنیم، به شکلی زنگولهای میرسیم که همان نمودار نرمال است. حالا اگر نمونه ای تصادفی کوچک از جامعه ی آدم ها را انتخاب کنیم، انتظار داریم در نمونهی کوچک ما هم توزیع همچنان نرمال باشد. در این صورت می توانیم بگوییم که نتایجی که ما از پژوهش روی نمونه گرفتیم، قابل تعمیم به کل جامعه ی آماری ما هست.
ما هم در پژوهشمان وقتی با تعداد زیادی داده سروکار داریم، دوست داریم توزیعشان نرمال باشد تا بتوانیم نتایجش را به همه تعمیم بدهیم. مثلن وقتی درباره ی تاثیر جنسیت روی کاربرد زبانی تحقیق می کنیم، قاعدتن نمی توانیم همه ی آدم های دنیا را بررسی کنیم و مجبوریم تعداد کمی از آدم ها را انتخاب کنیم اما دوست داریم نتایجی که به دست می آوریم قابل تعمیم به همه ی آدم ها (یا حداقل بخشی قابل توجهی از آدم ها) باشد. دو نوع آزمون آماری برای بررسی رابطه بین داده ها داریم. پارامتری و ناپارامتری. در آزمون های پارامتری یکی از فرض ها همان نرمال بودن توزیع است و فرض های دیگری هم داریم که مطمئن بشویم نتیجه ی پژوهش با قدرت بالا قابل تعمیم به جامعه ی آماری پژوهش است اما در آزمون های ناپارامتری قدرت پیش بینی پژوهش ما کم است. یعنی به راحتی نمی توانیم بگوییم چون نتایج پژوهش ما این شد، پس تاثیر متغیرهای مورد بررسی همیشه مثل نتایج پژوهش ماست. به طور کلی آزمون های ناپارامتری بیشتر برای داده های کیفی به کار می روند و آزمون های پارامتری برای داده های کمی. البته در کتاب گفته شده که نتایج آزمونهای ناپارامتری را نمیشود به کل جامعهی آماری تعمیم داد. این مسئله همان طور که دانا گابلاسووا در نقدش بر کتاب نوشته، اشتباه است. نتایج آزمونهای ناپارامتری را هم میشود تعمیم داد اما دقت کمتری نسبت به آزمونهای پارامتری دارند.
حالا برویم سراغ سوال پژوهش. سوال پژوهش باید مشخص کند که با چه گروهی داریم کار می کنیم، بر اساس داده های ما چه نتایجی قرار است گرفته بشود و چه چیزهایی بر نتایج ما تاثیر می گذارد. اگر سوال پژوهش را به صورت گزاره و نه پرسش، مطرح کنیم میشود فرضیه. فرضیه ی صفر می گوید رابطه یا تفاوتی بین متغیرهای ما وجود ندارد. مثلن اگر سوال پژوهش ما این باشد که چه تفاوتی بین رشته های مختلف دانشگاهی در کاربرد اسم ها وجود دارد، فرضیه ی صفر می شود: هیچ تفاوتی بین رشته های مختلف دانشگاهی در کاربرد اسم ها وجود ندارد. هدف ما در آزمون های آماری این است که فرضیه ی صفر را رد کنیم. یعنی با احتمال 95 درصد یا بیشتر ثابت کنیم که رابطه یا تفاوتی بین متغیرها یا سطوح مختلف متغیرهای ما وجود دارد. در ادامه ی این فصل دربارهی چگونگی وارد کردن داده ها در SPSS و ریزه کاری هایی که وجود دارد صحبت می شود.
فصل هفتم آزمون های آماری آنوا، خی- دو و همبستگی پیرسون را بررسی می کند. در کتاب برای این که خوب بفهمیم این آزمون ها چه روندی را طی می کنند، محاسباتب ریاضی این آزمونها ذکر می شود که خوب است یک بار انجام بدهیم و بلد باشیم اما در کل این محاسبات را نرم افزارهایی مثل SPSS، R یا Jasp انجام می دهند و نیازی نیست هر بار دستی محاسبات را انجام بدیم. دانا گابلاسووا این مسئله را هم نقد کرده و گفته اولن محاسبات دستی کامل نیستند و جاهایی (احتمالن به علت پیچیدگی محاسبات) نویسنده ها بیخیال محاسبه شدند و ثانین این جزئیات چیز زیادی به مخاطب تازهکار آمار اضافه نمیکند. آن چه که مهم است انتخاب آزمون مناسب بر اساس نوع داده ها و پیش فرض های اجرای آزمون و در نهایت تفسیر درست نتایج است.
به طور کلی بر اساس رابطه ی بین متغیرها دو نوع آزمون آماری داریم. آزمون تفاوت و آزمون رابطه ای. در آزمون های تفاوت مثل آنوا میخواهیم بدانیم متغیرهای مستقل چقدر باعث تغییر در متغیرهای وابسته می شوند. مثلن در همان مثال کاربرد اسم ها در رشتههای مختلف دانشگاهی، میخواهیم بدانیم متغیر مستقل رشته ی دانشگاهی چقدر باعث می شود تعداد کاربرد اسم ها متفاوت بشود. اما در آزمون های رابطه ای (مثل خی دو و همبستگی پیرسون) میخواهیم ببینیم متغیرها چقدر به هم وابسته هستند و با هم می آیند. مثلن انواع حرف تعریف در انگلیسی (مانند a و the) چقدر در جایگاه فاعل میان و چقدر در جایگاه مفعول. در آزمون های رابطهای، ما با رابطه ی همبستگی سروکار داریم نه علت و معلولی اما در آزمون تفاوت بیشتر به سمت علت و معلول گرایش داریم. در محاسبات آماری هر دو نوع آزمون، باید دقت کنیم که پیدا کردن رابطه بین متغیرها کافی نیست و باید شدت رابطه یا قدرت پیشبینی را هم به دست بیاوریم. نکتهی مهم در تفسیر نتایج پژوهشهایی است که بیشتر از یک متغیر مستقل دارند. در این جور موارد باید دربارهی این که یکی از متغیرهای مستقل یا ترکیبشان روی متغیر وابسته تاثیر گذاشتند دقت کنیم. در کتاب در این باره توضیح داده شده است.
در فصل هشتم توصیفی عملی از کار پژوهشی روی پیکره و چگونگی گزارش نتایج ارائه می دهد. همان طور که قبلن گفتیم، در تحلیل سیاق، اولین مرحله توصیف ویژگی های موقعیتی طبق همون هفت متغیری است که گفتیم. یعنی مشارکان، روابط بین مشارکان، کانال ارتباطی، شرایط تولید، وضعیت، اهداف ارتباطی و در نهایت موضوع. بعد از توصیف این هفت متغیر در مورد انواع متن های پژوهشمان، باید تحلیل زبانشناختی پیکره ای انجام بدیم و در نهایت رابطه ی بین متغیرهای موقعیتی و زبانی را با استفاده از تفسیر نقش گرا گزارش کنیم. در پایان این فصل، بخش های مختلف یک پژوهش گفته می شود. یعنی اول بافت و اهمیت پژوهش، دوم داده ها و روش شناسی، سوم نتایج یا results، چهارم بحث درباره ی نتایج و پنجم نتیجه گیری پایانی یا conclusion. یک جدول «راهنمای ارزیابی ارائه های دانشجویان» هم ارائه می شود که مشخص می کند در بخش های مختلف، ارائه ی پیکره محور یک دانشجو چه طور ارزیابی میشود.
در فصل نهم که فصل پایانی کتاب است، خیلی مختصر درباره ی این حرف زده می شود که برای پژوهش های پیشرفته باید چه مسیری را طی کنیم و از جمله درباره ی تحلیل چندبعدی صحبت می شود. شاخص ترین آدم هایی که کتاب ها و مقالاتشان در این بخش و در کل کتاب ذکر می شود، داگلاس بیبِر و جنیفر کُنراد هستند.
در پایان این پادکست، کمی هم درباره ی مسائل دیگه ی کتاب صحبت کنم. اولین نکته درباره ی جلد کتاب است که به نظر من فونت و طرح خوبی ندارد. مسئله ی بعدی صحافی کتاب است که خوب نبود و باعث شد در پایان مطالعه ی کتاب، صفحات پایانی جدا بشوند. امیدوارم این مشکل فقط برای کتاب من پیش آمده باشد و نه همهی 200 نسخه کتابی که طبق اطلاعات کتابشناسی چاپ شدند. دربارهی ترجمه و ویرایش باید بگویم که وقتی کتاب را شروع کردم با نثری تمیز و ویراسته روبرو شدم و خیلی خوشحال شدم. نثری که زیاد بوی ترجمه نداشت و گاهی به متن اصلی توضیحاتی اضافه شده بود که باعث بهتر فهمیده شدن متن میشد اما هر چه کتاب بیشتر پیش رفت، اشکالات ترجمه و ویرایش بیشتر خودشان را نشان دادند و به ویژه در بحث های تخصصی پیکره و آمار، گاهی اشتباهات باعث برعکس شدن یک مفهوم شده بود. گرچه این را هم باید در نظر داشت که به نظرم اصل کتاب هم یکی دو اشکال در بخش آماری داشت.
به هر حال اگر به پژوهش پیکره ای علاقه دارید و در این زمینه تازه کارید، این کتاب خیلی می تواند به شما کمک کند و شاید در طول یکی دو هفته بشود آن را خواند و با انجام دادن تمرین هایش قدم های اولیه برای کار پیکرهای برداشته بشود. اگر هم حرفه ای هستید، باز هم خواندن یا حداقل نگاه کردن به کتاب بتواند به شما ایدههای خوبی برای تحلیل پیکره ای بدهد.
نویسندههای کتاب استادان دانشگاههای آمریکا هستند. ویلیام کرافورد استاد دانشکده ی انگلیسی دانشگاه کالیفرنیای شمالی است و انیکو سیزومی (که امیدوارم تلفظ اسمشان را درست گفته باشم) استاد دانشکده ی زبان شناسی و زبان های آسیایی و خاورمیانه ای در دانشگاه ایالتی سن دیه گو است. خانم سیزومی اصالتن اهل مجارستان است و در حوزه های آموزش زبان انگلیسی و تحلیل گفتمان کار می کند. ایشان سپتامبر 2020، در یک ویدئوی یک ساعته دربارهی روش تحلیل گفتمان کلاسی با استفاده از پیکره هم صحبت کردند که میتوانید آن را در یوتوب پیدا کنید. آقای کرافورد هم بیشتر در حوزه ی آموزش زبان انگلیسی فعال است.
انتشارات راتلج هم که بین دانشگاهیان خیلی معروف است. این انتشارات از سال 1836 در حال انتشار کتابهای علمی در حوزه ی علوم انسانی و اجتماعی است و کتابهای افرادی چون اینشتین، راسل، ویتگنشتاین، یانگ، پوپر و سارتر را منتشر کرده است. در زمان تهیهی متن این پادکست یعنی پایان سال 99 خورشیدی، 108 کتاب در سایت این انتشارات، برچسب زبان شناسی پیکره ای خورده بود.
برای تهیه ی متن این پادکست، علاوه بر متن اصلی کتاب زبان شناسی پیکره ای در عمل و ترجمه اش، از سه reviewی نوشتهشده در مجلات علمی استفاده کردم: اولی نوشته ی ژی لن از دانشگاه شهر هنگ کنگ در مجله ی Corpora در آگوست 2017، دومی نوشته ی حسام الدین شریعتی از دانشگاه فردوسی مشهد در مجله ی RELC سال 2017 و سومی نوشته ی دانا گابلاسووا از دانشگاه لنکستر انگلستان در مجله ی Journal of English Linguistics در ژوئن 2016. در بخش 15 پادکست Lexis دربارهی روند ورود یک واژهی جدید به زبان با خانم گابلاسووا صحبت شده.
ترجمهی کتاب کار آقای محسن نوبخت است که عضو هیئت علمی پژوهشکده ی تحقیق و توسعه ی علوم انسانی یا همان سمت هست و در زمینهی سبکشناختی و نشانهشناسی کار کرده. خانم مریم جابر هم علاوه بر ویرایش این کتاب، چندین کتاب دیگر در زمینه ی علوم انسانی ویرایش کرده از جمله کتاب «زبان شناسی: منظری ایرانی» از محمد دبیرمقدم.
کتاب «زبان شناسی پیکره ای در عمل» یک ترجمه ی دیگر هم دارد از نشر لوگوس با نام «زبان شناسی پیکره ای: شیوه ها و کاربردها». این ترجمه را حسین وحید دستجردی استاد زبان انگلیسی دانشگاه اصفهان و مهرداد واشقانی فراهانی دانشجوی دکتری مطالعات ترجمه ی دانشگاه لایپزیک آلمان انجام دادند. در زمان تهیه ی متن این پادکست، مشخصات کلی کتاب در سایت نشر لوگوس بود و در سایت کتابخانهی ملی هم تاریخ انتشارش 1398 ثبت شده، اما کتاب هنوز منتشر نشده است.