چکیده
مدلهای زبانی بزرگ (LLM)ها، در سالهای اخیر توانایی چشمگیری در تولید متنهای منسجم و روان از خود نشان دادهاند. با این حال، بیشتر معیارهای ارزیابی موجود بر، ویژگیهای سطحی متن تمرکز دارند و کمتر به ساختارهای مفهومی نهفته در خروجی این مدلها پرداختهاند. در این مقاله پژوهشی - پیادهسازی، یک چارچوب تحلیل شبکهای برای بررسی سازماندهی مفهومی متنهای پارسی تولیدشده توسط یک مدل زبانی بزرگ ارائه میشود.
در این چارچوب، مفاهیم بهعنوان اسمها و عبارات اسمی تعریف شده که هریک دارای یک مفهوم و معنا هستند و روابط همرخدادی آنها در سطح جمله استخراج شده است. شبکههای مفهومی حاصل بهصورت گرافهای وزندار بدون جهت مدلسازی شده و با استفاده از شاخصهای متداول علوم شبکه، از جمله توزیع درجه، ضریب خوشهبندی، طول مسیر متوسط و ساختار اجتماعها، مورد تحلیل قرار گرفتهاند. بهمنظور بررسی اثر عوامل گفتمانی و پارامتری، متنها در ژانرهای مختلف و با تنظیمات متفاوت پارامتر تولید (دما) ایجاد شدهاند.
نتایج این پژوهش نشان میدهد که شبکه های مفهومی استخراجشده دارای ساختار غیرتصادفی، خوشهبندی معنیدار و حضور مفاهیم مرکزی هستند. همچنین، ژانر متنی و مقدار دما تأثیر قابل توجهی بر توپولوژی آن شبکهها دارند و میتوانند به افزایش یا کاهش انسجام مفهومی منجر شوند. این یافتهها نشان میدهد که متنهای پارسی تولیدشده توسط مدلهای زبانی بزرگ از سازماندهی مفهومی قابل تحلیل شبکهای برخوردارند.
این پژوهش نشان میدهد که تحلیل شبکهای میتواند بهعنوان ابزاری مکمل برای درک عمیقتر رفتار مدلهای زبانی بزرگ، بهویژه در زبانهای کممنبع مانند پارسی، مورد استفاده قرار گیرد.
جهت مشاهده کد های پیاده سازی عملی این پژوهش می توانید به این مخزن گیتهاب مراجعه نمائید.
جهت مشاهده ویدیو معرفی پروژه و مصورسازی های پژوهش و پیاده سازی عملی این پژوهش می توانید به این ویدیو مراجعه نمائید.
واژگان کلیدی:
تحلیل شبکه پیچیده، پردازش زبان طبیعی، مدلهای زبانی بزرگ، شبکه مفهومی، زبان پارسی، همرخدادی مفاهیم
در طی سالهای اخیر، مدلهای زبانی بزرگ (LLM) به یکی از مهم ترین ابزار های پردازش زبان طبیعی تبدیل شده اند و توانایی آنها در تولید متنهای منسجم، روان و متناسب با زمینههای مختلف توجه پژوهشگران حوزههای گوناگون را به خود جلب کرده است (که در این پژوهش به تعدادی از این دسته ها پرداخته شده). این مدلها نه تنها در زبانهای پر از منبع، بلکه در زبانهایی دارای منابع محدودتر مانند زبان پارسی نیز بهطور فزایندهای مورد استفاده قرار میگیرند. با این حال، پرسش اساسی این است که آیا خروجی این مدلها صرفاً تقلیدی ساده انگارانه از الگوهای آماری زبان پارسی است یا میتوان در آن ها نوعی سازماندهی مفهومی عمیقتر را نیز مشاهده کرد.
بخش قابل توجهی از پژوهشهای موجود در حوزه پردازش زبان طبیعی، عملکرد مدلهای زبانی را با معیارهایی مانند دقت، انسجام نحوی یا شباهت به متن انسانی ارزیابی میکنند. هرچند این معیارها برای سنجش کیفیت ظاهری متن مفیدند، اما کمتر به این پرسش میپردازند که مفاهیم در متنهای تولیدشده چگونه با یکدیگر سازمان و ساختار مییابند و چه ساختارهای کلانی در پسِ این تولید نهفته است. در این میان، تحلیل شبکهای بهعنوان ابزاری برای بررسی روابط میان واحدهای زبانی میتواند دیدگاهی مکمل و عمیقتر ارائه بدهد.
رویکرد های مبتنی بر علم شبکه قبلتر برای مطالعه ساختار زبان انسانی بهکار گرفته شدهاند. پژوهشها نشان دادهاند که شبکههای واژگانی و مفهومی زبان طبیعی دارای ویژگیهایی مانند توزیع درجه، خوشهبندی بالا و ساختار small-world هستند. این ویژگیها بیان گر آن هستند که زبان، چه در سطح واژگان و چه در سطح مفاهیم، بهصورت تصادفی سازمان نیافته است. با این حال، پرسش درباره اینکه آیا متنهای تولیدشده توسط مدلهای زبانی نیز از چنین ویژگیهایی برخوردارند، بهویژه در زبان پارسی، هنوز بهطور نظاممند بررسی نشده است.
از سوی دیگر، مدلهای زبانی بزرگ قادر هستند متنهایی را در ژانرهای مختلف تولید کنند؛ از گزارشهای خبری گرفته تا متنهای روایی و استدلالی. ژانر بهعنوان یکی از عوامل تعیینکننده در سازمان دهی متنهای تولیدی، می تواند بر نحوه اتصال مفاهیم و شکل گیری حوزههای معنایی اثرگذار باشد. با این وجود، برخی مطالعات انجام شده یا ژانر را نادیده میگیرند یا آن را صرفاً در سطح آماریِ آن سبک زبانی بررسی میکنند، نه در سطح ساختار مفهومی.
علاوه بر ژانر، پارامترهای تولید متن نیز نقش مهمی در خروجی مدلهای زبانی ایفا میکنند. یکی از این پارامترها، دما (temperature)، میزان تصادفیبودن فرآیند تولید را کنترل میکند و بهطور گسترده برای تنظیم تعادل میان انسجام و تنوع متن بهکار میرود. اگرچه اثر این پارامتر بر ویژگیهای سطحی و آماری متن بهخوبی شناخته شده است، تأثیر آن بر ساختار مفهومی و شبکهای متن کمتر مورد توجه قرار گرفته است.
در این پژوهش، با هدف پر کردن این خلأ، یک چهار چوب تحلیل شبکهای برای بررسی سازمان دهی مفهومی متنهای پارسی تولید شده توسط یک مدل زبانی بزرگ ارائه میشود. تمرکز اصلی این مطالعه نیمهعملی - نیمهپژوهشی، نه بر مقایسه مستقیم انسان و ماشین، بلکه بر توصیف و تحلیل ساختارهای مفهومی نهفته درون خود خروجی مدل زبانی است. بدین منظور، متنهای تولیدشده به مجموعهای از مفاهیم تبدیل شده و روابط همرخدادی آنها در سطح جمله بهصورت شبکههای مفهومی مدلسازی شده است. مراد از مفهوم در این پژوهش، مجموعه اسم و گروه های اسمی است که معنا دار هستند، نه صرفا تک کلمات تولید شده در یک جمله.
انتخاب زبان پارسی به جای انگلیسی، بهعنوان زبان مطالعه از دو جهت اهمیت دارد. نخست، پارسی بهعنوان زبانی با منابع محدودتر نسبت به زبانهایی مانند انگلیسی، کمتر در مطالعات شبکهای زبان مورد بررسی قرار گرفته است. دوم، بررسی رفتار مدلهای زبانی در تولید متن پارسی میتواند بینشهای ارزشمندی درباره تعمیمپذیری ساختارهای مفهومی مدلهایی که زبان مادریمان را تولید می کنند ارائه دهد. این مطالعه تلاش میکند نشان دهد که در تمام زبانها، حتی زبان شیرین پارسی نیز میتوان الگوهای شبکهای معناداری را در خروجی مدلهای زبانی مشاهده کرد.
در این پژوهش، طراحی آزمایش و پیاده سازی عملی بهگونهای انجام شده است که امکان تحلیل مقایسهای فراهم شود. متنها در ژانرهای مختلف و با تنظیمات متفاوت پارامتر تولید ایجاد شدهاند و شبکههای مفهومی متناظر با هر تنظیم بهصورت مستقل ساخته و تحلیل شدهاند. این رویکرد امکان بررسی تأثیر ژانر و دما بر توپولوژی شبکههای مفهومی را فراهم میکند و از تفسیرهای سادهانگارانه جلوگیری میکند.
سهم اصلی این مقاله را میتوان در سه محور خلاصه کرد. نخست، ارائه یک چارچوب روششناختی شفاف برای استخراج مفاهیم و ساخت شبکههای مفهومی از متنهای پارسی تولیدشده توسط مدلهای زبانی. دوم، تحلیل ساختارهای شبکهای این متون و نشان دادن وجود الگوهای غیرتصادفی، خوشههای معنایی و مفاهیم مرکزی. سوم، بررسی نقش ژانر متنی و پارامترهای تولید در شکلدهی به این ساختارها.
در نهایت، این مطالعه تلاش میکند پلی میان حوزه پردازش زبان طبیعی و علوم شبکه ایجاد کند و نشان بدهد که تحلیل شبکهای میتواند ابزاری مکمل و قدرتمند برای درک عمیقتر رفتار مدلهای زبانی باشد. یافتههای این پژوهش میتواند مبنایی برای مطالعات آتی، از جمله مقایسه با متن انسانی، بررسی مدلهای مختلف و تحلیلهای معناشناختی پیشرفتهتر فراهم آورد.
پژوهش حاضر در تقاطع سه حوزه اصلی قرار میگیرد: تحلیل شبکهای زبان، مطالعه مدلهای زبانی بزرگ، و پردازش زبان طبیعی برای زبان پارسی. در این بخش، بهطور خلاصه مهمترین جریانهای پژوهشی مرتبط با این حوزهها مرور میشود تا جایگاه علمی مطالعه حاضر مشخص گردد.
تحلیل شبکهای زبان بهعنوان یکی از رویکردهای میانرشتهای، در دهههای اخیر توجه قابل توجهی را به خود جلب کرده است. در این رویکرد، واحدهای زبانی مانند واژگان، مفاهیم یا عبارات بهصورت گرهها و روابط میان آنها بهصورت یالها مدلسازی میشوند. پژوهشهای متعددی نشان دادهاند که شبکههای زبانی دارای ویژگیهایی مشابه شبکههای پیچیده هستند، از جمله توزیع درجه ناهمگن، ضریب خوشهبندی بالا و ساختار small-world.
شبکههای همرخدادی واژگان از نخستین نمونههای بهکارگیری علم شبکه در مطالعه زبان بودهاند. این شبکهها نشان دادهاند که زبان انسانی بهطور طبیعی حول مجموعهای محدود از واژگان یا مفاهیم مرکزی سازمان مییابد. در ادامه، تمرکز پژوهشها از سطح واژگان به سطح مفاهیم و عبارات معنایی گسترش یافت و شبکههای مفهومی بهعنوان ابزاری برای بررسی سازماندهی معنا مطرح شدند.
بخش عمدهای از این مطالعات بر زبان انسانی و متون تولیدشده توسط انسان متمرکز بودهاند، متمرکز به بررسی اینکه آیا خروجی سیستمهای تولید متن ماشینی نیز از الگوهای شبکهای مشابهی پیروی میکند، بهویژه در سطح مفهومی، هنوز بهطور محدود انجام شده است.
مدلهای زبانی بزرگ در سالهای اخیر تحولی اساسی در حوزه پردازش زبان طبیعی ایجاد کردهاند. این مدلها با تکیه بر معماریهای عمیق و آموزش بر حجم عظیمی از دادههای متنی، قادر به تولید متنهایی با کیفیت بالا در زمینهها و موضوعات مختلف هستند.
بخش قابل توجهی از پژوهشهای مرتبط با مدلهای زبانی بزرگ بر ارزیابی کیفیت خروجی آنها تمرکز دارد. معیارهایی مانند روانی متن، انسجام نحوی، دقت معنایی و شباهت به متن انسانی بهطور گسترده مورد استفاده قرار گرفتهاند. با این حال، این معیارها عمدتاً به ویژگیهای سطحی متن توجه دارند و کمتر به ساختارهای مفهومی کلانتر میپردازند.
برخی مطالعات اخیر تلاش کردهاند تا رفتار مدلهای زبانی را از منظر ساختار آن بررسی کنند، برای مثال با تحلیل الگوهای توجه یا فضاهای تعبیهشده معنایی. با این وجود، استفاده از تحلیل شبکهای برای بررسی سازماندهی مفاهیم در خروجی مدلهای زبانی هنوز رویکردی جدید به شمار میرود و بهویژه در زبانهایی غیر از انگلیسی کمتر مورد توجه قرار گرفته است.
زبان شیرین پارسی بهعنوان یکی از زبانهای پراستفاده و پرمخاطب اما کم منبع در حوزه پردازش زبان طبیعی شناخته میشود. اگرچه در سالهای اخیر ابزارها و منابع متعددی برای پردازش پارسی توسعه یافتهاند، همچنان شکاف قابل توجهی میان پارسی و زبانهای پرمنبع از نظر حجم دادهها و مطالعات ساختاری وجود دارد.
مطالعات شبکهای زبان پارسی عمدتاً به تحلیلهای سطح واژگانی محدود بودهاند و بررسی سازماندهی مفهومی در متون پارسی، بهویژه متون تولیدشده بهصورت ماشینی، کمتر انجام شده است. از این رو، پژوهش حاضر تلاش میکند با تمرکز بر زبان پارسی، خلأ موجود در ادبیات پژوهشی را تا حدی پوشش دهد و نشان دهد که رویکردهای شبکهای میتوانند حتی در زبانهای کممنبع نیز بینشهای معناداری ارائه دهند.
این بخش به تشریح دادههای مورد استفاده و منطق طراحی آزمایش میپردازد. هدف از این بخش ارائه تصویری شفاف از نحوه تولید داده و کنترل متغیرهاست، بدون ورود به جزئیات فنی پیادهسازی که در بخش روششناسی ارائه شدهاند.
مجموعه داده مورد استفاده در این پژوهش بهصورت کاملاً مصنوعی و با استفاده از یک مدل زبانی بزرگ تولید شد. این انتخاب بهصورت آگاهانه انجام گرفت تا امکان کنترل دقیق شرایط تولید متن فراهم شود و متغیرهای ناخواسته حذف گردند. به دلیل محدودیت های رخ داده، شرایط کنونی از مدل رایگان cohere استفاده شده است.همچنین برای دستیابی به تنوع متن تولیدی، متنها در چهار ژانر اصلی تولید شدند: خبری، توضیحی–آموزشی، استدلالی و روایی. این ژانرها طیفی از سبکهای زبانی رسمی تا داستانی را پوشش میدهند. علاوه بر این، سه حوزه محتوایی کلی شامل آموزش، فناوری و سلامت انتخاب شد. ترکیب این ژانرها و موضوعات منجر به مجموعهای متوازن از شرایط تولید متن گردید.
برای هر ترکیب ژانر و موضوع، دو نوع پرامپت طراحی شد. نوع نخست، پرامپت استاندارد، ساختار کلی متن را از نظر تعداد پاراگرافها، طول و لحن مشخص میکرد. نوع دوم، پرامپت دارای جمله آغازین ثابت(hook)، با هدف کنترل نقطه شروع گفتمان و همراستا کردن آغاز شبکههای مفهومی مورد استفاده قرار گرفت.
هر دو نوع پرامپت به زبان پارسی، معیار شده و با محدودیتهای یکسانی از نظر طول و ساختار نوشته شدند. این طراحی امکان بررسی اثر میزان آزادی تولید متن بر ساختار مفهومی شبکهها را فراهم میکند. کنترل درجه آزادی مدل هم از عوامل مهم در تشکیل شبکه همرخدادی می تواند باشد.
بهمنظور بررسی اثر تصادفیبودن فرآیند تولید متن، پارامتر دما در دو مقدار متفاوت ۰.۲ و ۰.۸ تنظیم شده است. سایر پارامترهای تولید ثابت نگه داشته شدند تا اثر این پارامتر بهصورت مجزا قابل تحلیل باشد. استفاده از یک مدل زبانی ثابت در کل آزمایش تضمین میکند که تفاوتهای مشاهدهشده در ساختار شبکهها ناشی از تنظیمات تولید یا ژانر متنی باشند، نه تفاوت میان مدلها.
خروجی هر نمونه متنی بهصورت ساختاریافته ذخیره شد و شامل اطلاعاتی نظیر ژانر، موضوع، نوع پرامپت و تنظیمات تولید بود. این ساختار دادهای امکان فیلتر، تجمیع و تحلیل شبکهای در سطوح مختلف را فراهم میکند. متنها در مراحل بعدی به مفاهیم و سپس به شبکههای مفهومی تبدیل شدند. طراحی این زنجیره تبدیل بهگونهای انجام شده است که امکان بازتولید کامل نتایج و گسترش آزمایش در پژوهشهای آینده وجود داشته باشد.
هدف این بخش تشریح دقیق فرآیند تولید داده، استخراج مفاهیم، ساخت شبکههای مفهومی و تحلیل توپولوژیک آنهاست، بهگونهای که مطالعه حاضر بهطور کامل قابل باز تولید باشد. رویکرد کلی پژوهش مبتنی بر ترکیب روشهای پردازش زبان طبیعی و تحلیل شبکههای پیچیده است.
این پژوهش با هدف تحلیل ساختار مفهومی متنهای پارسی تولیدشده توسط یک مدل زبانی بزرگ انجام شد. برای کنترل متغیرهای مؤثر بر تولید متن و امکان تحلیل مقایسهای، طراحی آزمایش بهصورت عامدانه و چندبعدی انجام گرفت. در این طراحی، سه عامل اصلی کنترل شدند: ژانر متنی، موضوع محتوایی و پارامترهای تولید متن.
چارچوب کلی پژوهش شامل چهار فاز اصلی است:
تولید دادهی متنی پارسی
استخراج و نرمالسازی مفاهیم(مراحل پیش پردازش زبان طبیعی)
ساخت شبکههای مفهومی
تحلیل توپولوژیک شبکهها
در این بخش تمرکز بر سه فاز نخست است که مبنای نتایج شبکهای را تشکیل میدهند.
۴.۲.۱ ژانرها و موضوعات
برای تولید داده متنی متوازن، چهار ژانر زبانی انتخاب شد: خبری-گزارشی، توضیحی–آموزشی، استدلالی-اقناعی و روایی-داستانی. این ژانرها بهگونهای انتخاب شدند که طیفی از سبکهای گفتمانی رسمی تا روایی را پوشش دهند. همچنین سه موضوع محتوایی کلی در نظر گرفته شد: آموزش و دانشگاه، فناوری و زندگی دیجیتال، و سلامت - سبک زندگی. ترکیب این ژانرها و موضوعات منجر به ۱۲ سلول آزمایشی مجزا شد که در هر یک، متنهای متعددی تولید گردید.
۴.۲.۲ طراحی پرامپتها
برای هر سلول آزمایشی، دو نوع پرامپت موازی طراحی شد. نوع اول، پرامپت اصلی، ساختار کلی متن را مشخص میکرد و شامل محدودیتهایی نظیر تعداد پاراگرافها، بازه طول متن و لحن زبانی بود. نوع دوم، پرامپت دارای جمله آغازین ثابت، با هدف کنترل نقطه شروع شبکه مفهومی بهکار رفت.
هر دو نوع پرامپت به زبان پارسی معیار و با محدودیتهای یکسانی از نظر طول و ساختار نوشته شدند. این طراحی امکان مقایسه ساختارهای مفهومی حاصل از میزان آزادی متفاوت در تولید متن را فراهم میکرد.
4.2.3 پارامترهای تولید متن
برای بررسی اثر تصادفیبودن فرآیند تولید متن، دو مقدار متفاوت برای پارامتر دما در نظر گرفته شد: یک مقدار پایینتر که منجر به خروجی محافظهکارانهتر میشود و یک مقدار بالاتر که تنوع بیشتری ایجاد میکند (به ترتیب ۰.۲ و ۰.۸). سایر پارامترهای تولید ثابت نگه داشته شدند تا اثر آن بهصورت مجزا قابل بررسی باشد.
تمام متنها با استفاده از یک مدل زبانی ثابت تولید شدند تا اثر تفاوت مدلها بر نتایج حذف شود.
متنهای تولیدشده پیش از هرگونه تحلیل شبکهای تحت فرآیند نرمالسازی و پاکسازی قرار گرفتند. هدف از این مرحله حذف نویزهای زبانی و یکدستسازی نمایش متون پارسی بود.
در این فرآیند، کاراکترهای کنترلی و فاصلههای غیر استاندارد حذف شدند و شکلهای مختلف حروف پارسی به فرم واحد تبدیل گردیدند. همچنین نیمفاصلهها یکدستسازی شدند. نشانههای پایانی جمله مانند نقطه و علامت سؤال حفظ شدند، زیرا در مرحله بعدی برای قطعهبندی جملهای مورد استفاده قرار گرفتند.
پس از نرمالسازی، متنها به واحدهای جملهای تقسیم شدند. در این پژوهش، جمله بهعنوان واحد پایه همرخدادی انتخاب شد. این انتخاب به دلیل پایداری بیشتر جمله نسبت به پاراگراف و قابلیت مقایسه بهتر میان متون مختلف انجام گرفت.
هر جمله بهصورت مستقل برای استخراج مفاهیم مورد پردازش قرار گرفت و همرخدادی مفاهیم صرفاً در سطح جمله تعریف شد.
یکی از تصمیمهای کلیدی این پژوهش تعریف مفهوم بود. در این مطالعه، مفهوم بهصورت اسم یا عبارت اسمی کوتاه تعریف شد. بهطور مشخص، توکنهایی که برچسب اسم یا اسم خاص داشتند و همچنین عبارات اسمی با طول یک تا سه توکن بهعنوان مفاهیم در نظر گرفته شدند. افعال، صفات و سایر اجزای نحوی از فرآیند استخراج مفهوم حذف شدند، زیرا تمرکز پژوهش بر هستههای معنایی و محتوایی متن بود. این تعریف عملیاتی امکان ساخت شبکههای مفهومی پایدارتر و قابل تفسیرتر را فراهم میکند.
حال که برای هر جمله، مجموعهای از مفاهیم استخراج شد. در این مرحله، واژگان توقف رایج پارسی و مفاهیم بسیار عمومی که بار معنایی اندکی داشتند حذف شدند. همچنین حداقل طول کاراکتری برای مفاهیم اعمال شد تا از ورود نویز جلوگیری شود. پس از استخراج اولیه، یک پالایش آماری در سطح کل دیتاست انجام شد. مفاهیمی که تنها یکبار در کل مجموعه داده ظاهر شده بودند حذف شدند. علاوه بر این، پرتکرارترین مفاهیم نیز با استفاده از آستانه درصدی حذف شدند تا از تسلط مفاهیم بسیار عمومی بر ساختار شبکه جلوگیری شود.
شبکههای مفهومی بهصورت گرافهای وزندار بدون جهت ساخته شدند. در این گرافها، هر گره نمایانگر یک مفهوم و هر یال نمایانگر همرخدادی دو مفهوم در یک جمله است. وزن یال برابر با تعداد دفعاتی است که دو مفهوم در سطح جمله با یکدیگر ظاهر شدهاند. شبکههای جداگانهای برای تنظیمات مختلف ساخته شد، از جمله شبکه کلی، شبکههای تفکیکشده بر اساس ژانر، موضوع، نوع پرامپت و مقدار دما. این تفکیک امکان تحلیل مقایسهای ساختارهای شبکهای را فراهم میکند.
برای تحلیل شبکهها، مجموعهای از شاخصهای استاندارد علم شبکه محاسبه شده است. این شاخصها شامل تعداد گرهها و یالها، چگالی شبکه، میانگین درجه، ضریب خوشهبندی، تعداد مؤلفههای همبند و طول مسیر میانگین در بزرگترین مؤلفه همبند بودند.
علاوه بر این، شاخصهای مرکزیت شامل درجه، بینابینی و بردار ویژه برای شناسایی مفاهیم مرکزی محاسبه شدند.
برای شناسایی خوشههای مفهومی، از الگوریتم Louvain استفاده شد. این الگوریتم با بیشینهسازی ماژولاریتی، گرههایی را که ارتباط درونگروهی قویتری دارند در یک اجتماع قرار میدهد. استفاده از این روش امکان شناسایی ساختارهای معنایی در سطح کلان را فراهم کرد.
در گام نخست، شبکه مفهومی کلی استخراجشده از کل مجموعه متنهای پارسی تولیدشده توسط مدل زبانی بررسی شد. این شبکه که در ادامه با عنوان شبکه کلی (overall network) از آن یاد میشود، نمایانگر همرخدادی مفاهیم در سطح جمله در کل دیتاست است.

بررسی آماری شبکه کلی نشان میدهد که شبکه حاصل دارای تعداد قابل توجهی گره و یال است و بخش عمدهای از گرهها در یک مؤلفه همبند بزرگ قرار گرفتهاند. این ویژگی بیانگر آن است که مفاهیم بهصورت پراکنده و تصادفی ظاهر نشدهاند، بلکه یک ساختار مفهومی پیوسته و نسبتاً منسجم را تشکیل دادهاند.چگالی شبکه در مقایسه با شبکههای تصادفی با اندازه مشابه، بالاتر است؛ موضوعی که حاکی از وجود الگوهای همرخدادی معنادار میان مفاهیم است. این مشاهده اولیه نشان میدهد که متنهای پارسی تولیدشده توسط مدل زبانی، صرفاً مجموعهای از واژگان مستقل نیستند، بلکه دارای نوعی سازماندهی مفهومی قابل تحلیل شبکهای هستند.
برای درک بهتر ساختار کلی شبکه مفهومی، توزیع درجه گرهها مورد بررسی قرار گرفت. توزیع درجه نشان میدهد هر مفهوم با چند مفهوم دیگر در سطح جمله همرخداد داشته است و یکی از شاخصهای کلیدی در تحلیل شبکههای پیچیده به شمار میرود.

این توزیع رفتاری ناهمگن را نشان میدهد؛ به این معنا که اکثر گرهها دارای درجه پایین هستند، در حالی که تعداد محدودی از گرهها درجه بسیار بالایی دارند. چنین الگویی با آنچه در شبکههای زبانی و مفهومی گزارش شده است همخوانی دارد و بیانگر وجود مفاهیم هاب در شبکه است.
وجود این هابها نشان میدهد که برخی مفاهیم نقش مهمی را در شبکه ایفا میکنند و بخش بزرگی از ساختار مفهومی حول محور آنها سازمان یافته است. این الگو با ساختار شبکههای تصادفی تفاوت دارد و حاکی از آن است که همرخدادی مفاهیم در متنهای تولیدشده توسط مدل زبانی از قواعد ضمنی و تکرارشوندهای پیروی میکند. چنین ساختاری امکان انتقال و پیوند معنایی میان بخشهای مختلف شبکه را فراهم میسازد.
یکی از اهداف اصلی این مطالعه بررسی تأثیر پارامتر دما بر سازماندهی مفهومی متنهای تولیدشده توسط مدل زبانی بود. برای این منظور، شبکههای مربوط به دو مقدار دما پایین و بالا بهصورت مستقل ساخته و تحلیل شدند.

شکل ۳ مقایسه بصری این دو شبکه را نشان میدهد. در نگاه نخست، شبکه مربوط به دما بالاتر دارای تعداد بیشتری گره و یال به نظر میرسد که میتواند بیانگر تنوع مفهومی بیشتر باشد. با این حال، بررسی دقیقتر شاخصهای شبکه نشان میدهد که افزایش دما، الزاماً به معنای افزایش ساختارمندی نیست. در برخی موارد، افزایش temperature منجر به کاهش انسجام خوشهها و افزایش پراکندگی شبکه میشود. این موضوع نشان میدهد که در حالی که دما بالاتر میتواند مفاهیم متنوعتری را وارد متن کند، این تنوع ممکن است به قیمت کاهش تمرکز مفهومی تمام شود. این نتایج نشان میدهد که دما نه تنها بر سطح واژگانی متن، بلکه بر ساختار مفهومی و شبکهای آن نیز اثرگذار است.
برای بررسی وجود خوشههای معنایی در شبکهها، از الگوریتم Louvain برای شناسایی اجتماعها استفاده شد. این الگوریتم بهصورت خودکار گرههایی را که ارتباط درونگروهی قویتری دارند، در یک خوشه قرار میدهد.نتایج نشان میدهد که شبکهها دارای اجتماعهای مشخص و قابل تفکیکی هستند و مقادیر ماژولاریتی بهدستآمده بیانگر ساختار خوشهای معنادار است. شکل ۴ مقدار ماژولاریتی رو بر اساس گروهبندی ژانر ها نمایش میدهد

یافتههای این مطالعه نشان میدهد که متنهای پارسی تولیدشده توسط مدل زبانی مورد بررسی، دارای سازماندهی مفهومی غیرتصادفی و قابل تحلیل شبکهای هستند. وجود یک مؤلفه همبند بزرگ، چگالی نسبتاً بالا، و توزیع درجه ناهمگن همگی حاکی از آناند که مفاهیم بهصورت هدفمند و ساختاریافته در کنار یکدیگر قرار میگیرند.
این نتیجه با یافتههای پیشین در حوزه شبکههای زبانی همراستا است که نشان دادهاند هم در زبان انسانی و هم در متون تولیدشده بهصورت ماشینی، ساختارهای شبکهای پیچیدهای شکل میگیرد. از منظر علوم شبکه، چنین ساختاری امکان گردش معنا و اتصال حوزههای مفهومی مختلف را فراهم میکند و نشان میدهد که تولید متن توسط مدل زبانی صرفاً بر پایه جایگزینی محلی واژگان نیست، بلکه نوعی سازماندهی در سطح بالاتر مفاهیم را نیز بازتاب میدهد.
تحلیل مرکزیت گرهها نشان داد که شبکه مفهومی حول مجموعهای محدود از مفاهیم مرکزی سازمان یافته است. این مفاهیم که در شاخصهای مختلف مرکزیت برجسته ظاهر میشوند، نقش ستون فقرات شبکه را ایفا میکنند و بسیاری از همرخدادیهای مفهومی از طریق آنها برقرار میشود.
از منظر معناشناختی، این هابها میتوانند بهعنوان مفاهیم محوری در گفتمان تولیدشده توسط مدل زبانی تلقی شوند. حضور مداوم این مفاهیم در جایگاههای مرکزی نشان میدهد که مدل زبانی در تولید متن پارسی، به مجموعهای از مفاهیم نسبتاً پایدار تکیه میکند که بهعنوان نقاط اتصال میان حوزههای مختلف معنایی عمل میکنند. این پدیده میتواند بازتابی از توزیع نامتوازن دانش در دادههای آموزشی مدل یا سازوکارهای درونی توجه (attention) در معماری مدل باشد.
یکی از یافتههای کلیدی این پژوهش، تفاوت معنادار توپولوژی شبکههای مفهومی در ژانرهای مختلف است. نتایج نشان داد که ژانر نهتنها بر سبک زبانی متن، بلکه بر نحوه سازماندهی مفاهیم نیز اثرگذار است.
بهطور خاص، شبکههای ژانر خبری تمایل به تمرکز بیشتر حول مفاهیم مرکزی و خوشههای فشرده دارند. این ویژگی با ماهیت متون خبری سازگار است که معمولاً حول مجموعهای محدود از موضوعات کلیدی سازمان مییابند. در مقابل، شبکههای ژانر روایی ساختاری پراکنده تر و با مسیرهای طولانی تر نشان میدهند که میتواند بازتاب دهنده تنوع مفهومی و پیشرفت تدریجی روایت باشد.
این تفاوتها نشان میدهد که مدل زبانی قادر است الگوهای ساختاری ژانری را در سطح مفهومی باز تولید کند. از منظر پردازش متن طبیعی، این موضوع اهمیت دارد زیرا نشان میدهد ژانر بهعنوان یک متغیر کنترلی میتواند بر ساختارهای عمیقتر از سطح واژگان تأثیر بگذارد.
تحلیل اثر دما نشان داد که این پارامتر نقشی دوگانه در تولید متن ایفا میکند. از یک سو، افزایش دما به ورود مفاهیم متنوعتر به شبکه منجر میشود که میتواند تنوع محتوایی را افزایش دهد. از سوی دیگر، این تنوع با کاهش نسبی انسجام شبکه و پراکندگی بیشتر خوشههای معنایی همراه است.این یافته نشان میدهد که دما صرفاً یک پارامتر سطحی برای کنترل خلاقیت زبانی نیست، بلکه میتواند ساختار مفهومی متن را نیز تحت تأثیر قرار دهد. در دما پایینتر (۰.۲ در این مطالعه)، شبکهها معمولاً منسجمتر و دارای خوشههای مشخصتر هستند، در حالی که دما بالاتر (۰.۸ در این مطالعه) ممکن است به تولید ساختار هایی منجر شود که اگرچه متنوع ترند، اما از نظر شبکهای کمتر متمرکز هستند.
این نتیجه پیامد های مهمی برای کاربردهای عملی مدلهای زبانی دارد، بهویژه در حوزههایی که انسجام مفهومی اهمیت بالایی دارد، مانند تولید محتوای آموزشی یا متون رسمی.
شناسایی اجتماعهای شبکهای با استفاده از الگوریتم Louvain نشان داد که شبکههای مفهومی دارای خوشههای معنایی نسبتاً مشخص هستند. این خوشهها اغلب از نظر مفهومی قابل تفسیر بوده و حوزههای معنایی نسبتاً مستقلی را بازنمایی میکنند.
از منظر علوم شبکه، وجود چنین خوشههایی نشاندهنده ساختار small-world و سازماندهی مدولار شبکه است. از منظر زبانشناسی محاسباتی، این یافته میتواند بهعنوان شواهدی از توانایی مدل زبانی در بازنمایی ضمنی حوزههای معنایی تلقی شود، حتی بدون استفاده از ساختارهای صریح معناشناختی.
این خوشههای معنایی میتوانند مبنایی برای تحلیلهای پیشرفتهتر، مانند ردیابی تغییرات موضوعی یا تحلیل انسجام گفتمانی در متنهای تولیدشده باشند.
یافتههای این مطالعه نشان میدهد که رویکردهای مبتنی بر علوم شبکه میتوانند مکمل ارزشمندی برای روشهای رایج در پردازش زبان های طبیعی باشند. در حالی که بسیاری از تحلیلهای NLP بر سطح واژگان، جملات یا بردارهای تعبیهشده تمرکز دارند، تحلیل شبکهای امکان بررسی ساختارهای کلانتر و روابط مفهومی میان واحدهای زبانی را فراهم میکند.این رویکرد بهویژه برای زبانهایی مانند پارسی که منابع محدودتری دارند، میتواند ابزاری مفید برای استخراج الگوهای ساختاری بدون نیاز به دادههای لیبل خورده باشد.
با وجود نتایج بسیار جالب، باید توجه داشت که تفسیر این یافتهها محدود به چارچوب روششناختی بهکاررفته در این پژوهش است. تعریف مفهوم بر اساس همرخدادی جملهای و تمرکز بر اسمها و عبارات اسمی، اگرچه مزایای تحلیلی دارد، اما لزوماً تمام ابعاد معنایی متن را پوشش نمیدهد. همچنین محدودیت های سخت افزاری و نرم افزاری مانعی بزرگ در راستای پیشرفت و توسعه این مطالب می تواند باشد.
همچین می توان به این مورد اشاره کرد که نتایج این مطالعه به یک مدل زبانی خاص و یک زبان مشخص محدود است و تعمیم آنها به سایر مدلها یا زبانها نیازمند بررسیهای بیشتر است و خارج از حوصله این پژوهش است.
در این پژوهش، یک چارچوب تحلیل شبکهای برای بررسی سازماندهی مفهومی متنهای پارسی تولیدشده توسط یک مدل زبانی بزرگ ارائه و بهصورت تجربی ارزیابی شد. برخلاف رویکردهای رایج در پردازش زبان طبیعی که عمدتاً بر سنجه های سطحی کیفیت متن تمرکز دارند، این مطالعه تلاش کرد ساختارهای مفهومی نهفته در خروجی مدل زبانی را در سطحی کلانتر و رابطه محورتر مورد بررسی قرار دهد.
نتایج نشان داد که متنهای پارسی تولیدشده توسط مدل زبانی دارای ساختار مفهومی غیرتصادفی و قابل تحلیل شبکهای هستند. شبکههای حاصل دارای ویژگیهایی همچون وجود مؤلفه همبند بزرگ، توزیع درجه ناهمگن، خوشهبندی قابل توجه و حضور مفاهیم مرکزی هستند. این ویژگیها نشان میدهد که مفاهیم در متنهای تولیدشده بهصورت تصادفی کنار هم قرار نگرفتهاند، بلکه الگوهای تکرارشونده و سازمانیافتهای را شکل میدهند(فرکتالها).
یکی از یافتههای مهم این پژوهش، نقش ژانر متنی در شکلدهی به توپولوژی شبکههای مفهومی بود. نتایج نشان داد که ژانرهای مختلف، الگوهای متفاوتی از تمرکز مفهومی، خوشهبندی و پراکندگی شبکهای را به نمایش میگذارند. این موضوع بیانگر آن است که مدل زبانی قادر است تفاوتهای ژانری را نهتنها در سطح سبک زبانی، بلکه در سطح سازماندهی مفاهیم نیز بازتاب دهد.
علاوه بر این، بررسی اثر پارامتر دما نشان داد که تنظیمات تولید متن میتوانند ساختار مفهومی شبکه را بهطور معناداری تغییر دهند. افزایش دما اگرچه تنوع مفهومی بیشتری ایجاد میکند، اما ممکن است به کاهش انسجام ساختاری شبکه منجر شود. این یافته اهمیت توجه به پیامدهای ساختاری پارامترهای تولید را، فراتر از کیفیت ظاهری متن، برجسته میکند.
در مجموع، این مطالعه نشان میدهد که تحلیل شبکهای میتواند ابزاری قدرتمند و مکمل برای درک رفتار مدلهای زبانی بزرگ باشد، بهویژه در زبانهایی مانند پارسی که منابع حاشیهنویسیشده محدودتری دارند. چارچوب پیشنهادی امکان بررسی سیستماتیک سازماندهی مفهومی متنهای تولیدشده را فراهم میکند و میتواند بهعنوان پایهای برای مطالعات عمیقتر در تقاطع علوم شبکه و پردازش زبان طبیعی مورد استفاده قرار گیرد.
با وجود نتایج بهدستآمده، این پژوهش دارای محدودیتهایی است که باید در تفسیر یافتهها مدنظر قرار گیرد. نخست، تحلیل حاضر تنها بر خروجی یک مدل زبانی خاص متمرکز بوده است. بنابراین، نتایج بهدستآمده لزوماً قابل تعمیم به سایر مدلهای زبانی یا معماریهای متفاوت نیست. بررسی و مقایسه ساختارهای مفهومی در خروجی مدلهای مختلف میتواند تصویری جامعتر از رفتار شبکهای مدلهای زبانی ارائه دهد.
دوم، این مطالعه بهطور انحصاری بر متنهای تولیدشده توسط مدل زبانی تمرکز داشت و مقایسه مستقیمی با متنهای انسانی انجام نشد. اگرچه این انتخاب بهصورت آگاهانه و با هدف تمرکز بر توصیف ساختارهای درونی خروجی مدل انجام شد، افزودن متنهای انسانی در پژوهشهای آینده میتواند امکان مقایسه مستقیم سازماندهی مفهومی انسان و ماشین را فراهم آورد و به پرسشهای بنیادیتری در زمینه شباهتها و تفاوتهای این دو منبع زبانی پاسخ دهد.
سوم، تعریف مفهوم در این پژوهش مبتنی بر اسمها و عبارات اسمی و بر اساس همرخدادی در سطح جمله بود. اگرچه این تعریف به ایجاد شبکههای پایدار و قابل تفسیر کمک میکند، اما تمام ابعاد معناشناختی متن را پوشش نمیدهد. استفاده از رویکردهای پیشرفتهتر، مانند شبکههای مبتنی بر وابستگی نحوی، نقشهای معنایی یا تعبیههای معنایی، میتواند تصویر دقیقتری از روابط مفهومی ارائه دهد.
در نهایت، یکی از مسیرهای مهم پژوهشی آینده میتواند ترکیب تحلیل شبکهای با روشهای رایج پردازش زبان طبیعی باشد. برای مثال، مقایسه ساختارهای شبکهای مفهومی تولیدی با کلام و نوشته واقعی انسان یا حتی مقایسه ساختارهای شبکهای مفهومی با فضاهای تعبیهشده معنایی یا بررسی ارتباط میان خوشههای شبکهای و موضوعات استخراجشده بهصورت خودکار میتواند به درک عمیقتری از سازماندهی دانش در مدلهای زبانی منجر شود.
Amancio, D. R. (2015).
Network analysis of named entity co-occurrences in written texts.
arXiv preprint arXiv:1509.05281.
Barabási, A.-L. (2016).
Network Science.
Cambridge University Press.
Newman, M. (2018).
Networks.
Oxford University Press.
Ferrer i Cancho, R., & Solé, R. V. (2001).
The small world of human language.
Proceedings of the Royal Society B: Biological Sciences, 268(1482), 2261–2265.
Steyvers, M., & Tenenbaum, J. B. (2005).
The large-scale structure of semantic networks: Statistical analyses and a model of semantic growth.
Cognitive Science, 29(1), 41–78.
Mihalcea, R., & Radev, D. (2011).
Graph-based Natural Language Processing and Information Retrieval.
Cambridge University Press.
[7] Gerlach, M., Peixoto, T. P., & Altmann, E. G. (2023).
Topic modeling using community detection on a word association graph.
In Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing (RANLP 2023).
Yan, S., et al. (2021).
Overlapping community detection in temporal text networks.
arXiv preprint arXiv:2101.05137.
Grover, A., & Leskovec, J. (2016).
node2vec: Scalable feature learning for networks.
In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.
Wu, L., et al. (2021).
Graph neural networks for natural language processing: A survey.
arXiv preprint arXiv:2106.06090.
Vaswani, A., et al. (2017).
Attention is all you need.
In Advances in Neural Information Processing Systems 30 (NeurIPS 2017).
Brown, T. B., et al. (2020).
Language models are few-shot learners.
In Advances in Neural Information Processing Systems 33 (NeurIPS 2020).
Zheng, Z., et al. (2024).
Attention heads of large language models: A survey.
arXiv preprint arXiv:2409.03752.
Zolnai-Lucas, A., et al. (2024).
STAGE: Simplified text-attributed graph embeddings for large-scale textual networks.
arXiv preprint arXiv:2407.12860.