بخش اول به معرفی اجمالی برنامه متن باز "ويراستاری" اختصاص داده شد و در اين بخش هم يکی ديگر از این امکانات را شرح خواهم داد که در حیطه متن کاوی و داده کاوی قرار داد
تاپیک مدلینگ (مدل سازی موضوع)
مدل سازی موضوع ارائه یک راه ساده برای تجزیه و تحلیل حجم زیادی از متن بدون برچسب است. "موضوع" شامل خوشه ای از کلمات است که غالباً در کنار هم اتفاق می افتند. با استفاده از سرنخ های متنی ، مدل های موضوع می توانند کلمات را با معانی مشابه مرتبط کرده و بین کاربرد واژگان با معانی متعدد تمایز قائل شوند
برای اینکه دیتای متنی بدون شکل unstructured textual data را متوجه شوید یک مثال میزنم. فرض کنید یک صفحه وب داریم مانند فروش یک محصول موبایل یا یک بلیت قطار و غیره که کاربران متنهایی را در بخش نظرات درج میکنند. این نظرات مختلف هستند. هر کسی آزادانه شروع به نوشتن میکند. مثلا برای موبایل در مورد باطری ثبت نظر میکند یا در مورد سبک بودن و قیمت نظر میدهند. در مورد بلیت قطار کاربران در خصوص رستوران قطار نظر میدهند یا در خصوص مهماندار و یا زمانبندی و هزاران چیز دیگر نظر میدهند. بعد از مدتی شما مقدار زیادی نظر دارید و اصلا نمیدانید باید با آنها چه کنید.
تاپیک مدلینگ نوعی از مدل آماری برای تعیین "موضوعات" انتزاعی است که در مجموعه اسناد رخ می دهد. مدل سازی موضوع ابزاری برای استخراج متن است که در کشف ساختار معنایی پنهان در یک متن استفاده می شود. با توجه به اینکه یک سند در مورد یک موضوع خاص است ، انتظار می رود که کلمات خاصی کم و بیش در سند ظاهر شوند. یک سند به طور معمول به موضوعات مختلف در نسبت های مختلف مربوط می شود بنابراین ، در سندی که 10٪ در مورد"A" و 90٪ در مورد "B" باشد ، احتمالاً حدود 9 برابر کلمه "B" از کلمات"A" وجود دارد. "مباحث" كه توسط تكنيك هاي مدل سازي موضوع برگشته اند ، خوشه هاي كلمات مشابه هستند. یک مدل موضوع این مفهوم را در یک چارچوب ریاضی ضبط می کند ، که امکان بررسی مجموعه ای از اسناد و مدارک را فراهم می کند ، بر اساس آمار کلمات مورد استفاده در هر سند ، چه مباحث ممکن است باشد و چه تعادل مضامین هر سند.
مدل های موضوعی همچنین به عنوان مدل های موضوعی محتمل توصیف می شوند ، از الگوریتم های آماری که برای کشف ساختار معنایی نهفته در یک متن گسترده استفاده می شود استفاده میکنند. در این عصر اطلاعات ، درک مجموعه های بزرگ از متن های بدون ساختار از متن به دلیل میزان محتوای نوشتاری که هر روز با آن روبرو می شوید ، فراتر از ظرفیت پردازش فرد است. مدلهای موضوعی می توانند به سازماندهی مطالب نوشتاری و بینش کمک کنند. از مدل های موضوع برای تشخیص ساختار "آموزنده" در داده هایی مانند اطلاعات ژنتیکی ، تصاویر و شبکه ها استفاده شده است. آنها همچنین در زمینه های دیگری مانند بیوانفورماتیک کاربردهایی دارند.
مدل سازی موضوع نوعی روش شناسایی بزرگ برای تجزیه و تحلیل داده ها برای کشف موضوعات انتزاعی است که به طور مکرر در یک مجموعه از اسناد رخ می دهد. هنگام نوشتن مقاله ، نویسنده کلمه کلیدی خاصی را در ذهن خود دارد ، این کلمه کلیدی در کل مقاله تکرار می شود. مجموعه کلمات کلیدی به عنوان یک ترکیب محدود بر روی یک مجموعه اساسی از احتمالات موضوع مدل سازی شده است ، و سپس یک موضوع نهفته در یک سند خاص بازگردانده می شود. بنابراین تجزیه و تحلیل داده های بزرگ تنها با مقدار کمی کد نویسی امکان پذیر است. کاوش متن نه تنها روشی مناسب برای شناسایی ساختار یک متن و استخراج مفاهیم است ، بلکه برای تجسم نیز مفید است. متن کاوی برای تعیین روند ژورنال ها ، خدمات شبکه های اجتماعی مانند توییتر و وبلاگ ها ، انواع مشتری (از طریق بررسی های آنلاین) و گفتمان داده های بزرگ در رسانه های خبری استفاده می شود.
برای استفاده از این امکان در برنامه "ویراستاری" یک فایل متنی با فرمت UTF8 ایجاد میکنیم که شامل مطالبی است که میخواهیم پردازش شود. سپس مسیر خروجی را هم انتخواب میکنیم و سپس کلید اجرا را میزنیم. بعد از اینکه پردازش تمام شد فایلها در مسیر خروجی قابل مشاهده است. برای اطلاعات بیشتر یا تغیر تنظیمات Topic Modeling را در وب جستجو کنید.
برای مثال با در خصوص فروش یک محصول موبایل بعد از آنالیز ممکن است متوجه شویم که اکثر کاربران ما به کیفیت مکالمه گوشی اهمیت میدهند و ارتباط اینترنت برای آنها مهم بوده است. یا برای مثال فروش بلیط قطار با آنالیز متنی متوجه میشویم که سروصدا برای کاربران ما اهمیت داشته است.
این ابزار به صورت خلاصه و چکیده معرفی و ارائه شده است. امیدوارم که با هم فرصتی دست دهد تا با نوشتاری جدید در خدمت شما باشم.
دانلود از طریق زیر میسر است
https://github.com/ehsan2022002/VirastarE