سعید چوبانی
سعید چوبانی
خواندن ۷ دقیقه·۵ سال پیش

متن‌‌کاوی؛ چگونه به کمک صنعت کشاورزی می‌آید؟

تصور ارتباط شیوه‌های متن‌کاوی و صنعت کشاورزی کمی دور از ذهن است؛ ولی بیایید تصور کنیم که شما، مدیر یک استارتاپ در حوزه‌ی صنایع کشاورزی هستید و در حال تحقیق روی ساخت رباتی هستید که علف‌های هرز در باغ‌های انگور را هرس می‌کند. برای موفقیت چنین محصولی در بازار به تحقیقات بسیاری نیاز خواهید داشت. شاید مهم‌تر از همه نیاز دارید که بدانید چه تکنولوژی‌هایی در این حوزه وجود دارند؟ در اینجا نگاهی گذرا انداخته‌ایم به کمکی که متن‌کاوی، در یافتن پاسخ این سوال به شما می‌کند.

مجموعه داده برای متن‌کاوی: شیرجه در اقیانوس‌ پتنت‌ها

پتنت‌ها، یکی از ارزشمند‌ترین مجموعه‌های داده برای تحلیل هستند. بیش از ۸۰ درصد از اطلاعات جدید در حوزه فناوری‎ها، تنها از طریق پتنت‎ها قابل‌ دستیابی است. اطلاعات حاصل از تحلیل پتنت در سطح استراتژیک، می‌تواند از طریق استخراج روند فناوری، به شرکت‌ها در تعریف پروژه‌های توسعه فناوری و انتخاب شرکای مناسب، کمک کند. [۱]

رباتی که بتواند علف‌های هرز را در باغ انگور هرس کند، در حیطه‌ی فناوری‌های مربوط به کشاورزی دقیق (Precision Agriculture) دسته‌بندی می‌شود. در کشاورزی دقیق، تولیدکنندگان تجهیزات کشاورزی می‌توانند تغییرات و غیریکنواختی‌های داخل مزرعه را شناسایی کرده و سپس با مدیریت این تغییرات در جهت افزایش محصولات زراعی و افزایش بهره وری گام بردارند. [۲]

پس از اینکه به اهمیت پتنت‌ها پی بردیم و تعریف اولیه‌ی کشاورزی دقیق را متوجه شدیم، به EscpaceNet مراجعه می‌کنیم. EscpaceNet یک پایگاه داده‌ی عظیم از پتنت‌های جهان است که بیش از ۱۱۰ میلیون پتنت را در خود جای داده است. با جستجو در این پایگاه داده، چیزی حدود ۲۸۰۰۰ پتنت را که در حوزه‌ی کشاورزی دقیق هستند، جمع‌آوری می‌کنیم.

کمی بیشتر درباره‌ی پتنت‌ها

در حالت کلی تحلیل پتنت یک موضوع تخصصی است. افراد و شرکت‌هایی هستند که تخصص آن‌ها تهیه گزارش‌های زمینه‌ی پتنت (Patent Landscape Report) است. [۳][۴] این گزارش‌ها، شامل جزییات بسیار زیادی هستند و به سوالات متعددی درباره‌ی یک زمینه‌ی فناوری خاص پاسخ می‌دهند. هر پتنت از بخش‌های زیر تشکیل شده است:

  • تاریخ‌ها (الویت، ثبت و نشر)
  • اعداد (شماره الویت، شماره ثبت، شماره نشر، شماره خانواده، دفعات ارجاع)
  • اسامی (نام ثبت‌کنندگان پتنت - حقیقی یا حقوقی)
  • کدهای تقسیم‌بندی
  • فیلدهای متنی (عنوان، چکیده، توضیحات، ادعا و ..)
  • تصاویر
  • دیگر اطلاعات (مباحث قانونی و .. )
نمونه صفحه‌ی یک پتنت در Espacenet
نمونه صفحه‌ی یک پتنت در Espacenet


برای مثال با بررسی مجموعه‌ داده جمع‌آوری شده، نمودار زیر سهم هر کشور از پتنت‌های حوزه‌ی کشاورزی دقیق را نشان می‌دهد. همچنین رنگ قرمز نشان‌دهنده‌ی این است که پتنت توسط یک شرکت خصوصی و رنگ آبی نشان‌دهنده‌ی اینکه پتنت توسط مخترع شخصی ثبت شده است.

توزیع پتنت‌های حوزه‌ی کشاورزی دقیق از منظر کشور یا سازمان محل ثبت
توزیع پتنت‌های حوزه‌ی کشاورزی دقیق از منظر کشور یا سازمان محل ثبت


و یا نمودار زیر که نشان می‌دهد ۱۰ ثبت کننده‌ی برتر، در کدام رده‌ی فناوری، تعداد پتنت‌های بیشتری ثبت کرده‌اند:

و یا نمودارهای دیگری که روند تعداد پتنت‌ها در دسته‌بندی‌های مختلف در طی زمان را مشخص می‌کنند:

روند تعداد پتنت‌ها در زمینه‌های فناوری مختلف طی زمان
روند تعداد پتنت‌ها در زمینه‌های فناوری مختلف طی زمان

و اما متن‌کاوی پتنت‌ها

هر جا که صحبت از متون باشد، پای متن‌کاوی هم در میان خواهد بود. در این مورد ما تنها بخش ادعا (CLAIM) از متن پتنت‌ها را جدا کرده و بعنوان مجموعه داده متن‌کاوی مورد استفاده قرار می‌دهیم. ادعا مهم‌ترین بخش پتنت است که در آن مالک پتنت، مستقیما ادعا می‌کند که پتنت او شامل چه چیزی می‌شود. فلوچارت زیر روندی است که برای پاک‌سازی این مجموعه‌ داده استفاده می‌شود:

هیستوگرام پایین، توزیع تعداد توکن‌ها، پس از پاک‌سازی؛ در هر یک از پتننت‌ها را نمایش می‌دهد:

با توجه به اینکه هدف از متن‌کاوی یافتن تکنولوژی‌های مختلف در حوزه کشاورزی دقیق است، نیاز به پیاده‌سازی یک الگوریتم مدل‌سازی عناوین (Topic Modelling) داریم. الگوریتم‌های بسیاری در این زمینه موجود هستند که بر اساس متدهای مختلف از جمله فاصله‌ی وکتورِ توکن‌ها از یکدیگر و یا تعداد دفعات تکرار هر توکن در جملات و ... عمل می‌کنند. الگوریتم LDA یکی از شناخته‌ شده‌ترین الگوریتم‌ها در این زمینه است که بر روی کتابخانه‌ی GENSIM در پایتون به خوبی پیاده‌سازی شده و قابل استفاده است. [۵] اجرای چندباره‌ی این الگوریتم، ثابت می‌کند که حدود ۱۰ عنوان مجزا در مجموعه داده‌، بیشترین امتیاز Coherence را دارد.

۱۰ عنوان بدست آمده توسط الگوریتم LDA و برترین کلمات در هر عنوان
۱۰ عنوان بدست آمده توسط الگوریتم LDA و برترین کلمات در هر عنوان


با بررسی کلمات داخل هر عنوان، می‌توان به راحتی موضوعات را برچسپ‌گذاری کرد. برای مثال عنوان هفتم داری مجموعه کلماتی به شکل زیر است که با برچسپ Image Recognition مشخص می‌کنیم:

Image, detection, laser, illumination, beam, module, hand-supportable, IFD, speckle noise, symbol, camera, light, element, FOV, lens, code, optic, frame

در صورتی که بقیه عناوین را هم به همین شیوه برچسپ‌گذاری کنیم به ۹ عنوان اصلی زیر دست خواهیم یافت: (یکی از تگ‌ها در دو عنوان تکرار شده‌ است.)

  • Mechanical Assemblies of different parts
  • Irrigation
  • Biological and physiological
  • Geographic Information
  • Hydromechanics
  • Data Transmission and sensors
  • Image recognition and analysis
  • Mechanical Assemblies of different parts
  • Seeding the Soil
  • Controlling the Vehicle from Distance

دسته‌بندی تکنولوژی‌های استفاده شده در پتننت‌های کشاورزی دقیق، موضوعی است که در جزییات پتنت‌ها ثبت نمی‌شوند و می‌بایست از شیوه‌های داده‌کاوی (مانند متن‌کاوی) برای یافتن آن استفاده کرد. حال می‌توان به سراغ هر یک از این دسته‌بندی‌ها رفت و فعال‌ترین مالکان پتنت در آن‌ها را بررسی کرد.

علاوه بر پتنت‌ها، می‌توان متن‌کاوی را روی مجموعه‌داده‌های بیشتری نیز پیاده‌سازی کرد. برای مثال مجموعه داده‌ای از مقالات منتشر شده‌ی دانشگاهی و یا پست‌های وبلاگی. برای نمونه اینجا، من بیش از هزار پست وبلاگی با کیورد "کشاورزی دقیق" را از وب‌سایت‌های مرتبط کشاورزی جمع‌آوری کرده و ابر کلمات آن‌ها را تشکیل داده‌ام، همانطور که می‌بینید این تکنولوژی‌ تاثیر مهمی در آینده‌ی محیط زیست ما خواهد داشت.

ابر کلمات ۱۰۰۰ پست وبلاگی در زمینه‌ی کشاورزی دقیق
ابر کلمات ۱۰۰۰ پست وبلاگی در زمینه‌ی کشاورزی دقیق



آنچه مطالعه کردید، بخشی از یک گزارش هوش رقابتی [۶] (‌Competitive Intelligence) بود که در یک پروژه‌ی دانشگاهی برای شرکت Vitibot تدوین شده است. این گزارش شامل‌ بخش‌های دیگری مانند تحلیل شبکه‌ی ارجاع (Citation Network) و یا گزارش‌های کیفی‌تر مانند SWOT و PERSEL نیز می‌شود. هوش رقابتی به معنی کسب شناخت از هر آن‌ چیزی است که در محیط بیرونی یک کسب‌وکار رخ می‌دهد تا بتوان قدرت رقابت‌پذیری آن کسب‌وکار را افزایش داد.[۷] همانطور که دیدیم، متن‌کاوی (و در حالت کلی داده‌کاوی) می‌تواند به کمک استارتاپ کشاورزی شما آمده و شناخت بهتری نسبت به رقبا و وضعیت موجود صنعت به شما ارائه دهد و به یکی از ابزارهای مهم در هوش رقابتی تبدیل شود.


منابع و نوشته‌های مرتبط:

[۱] تحلیل پتنت؛ ابزاری کلیدی برای موفقیت کسب‌وکار - کانون پتنت ایران

[۲] کشاورزی دقیق چیست؟ - وبلاگ اگرونیک

[۳] راهنمای کامل تهیه‌ی گزارش زمینه‌ی پتنت (Patent Landscape Report)

[۴] یک راهنمای کامل و بسیار ارزشمند برای آشنایی با پتنت‌ها و ابزارهای مفید در تحلیل آن‌ها.

[۵] یک راهنمای کامل و گام به گام برای پیاده‌سازی LDA.

[۶] مدخل هوش رقابتی - ویکی‌پدیایی انگلیسی

[۷] پیوند هوش رقابتی و استراتژی‌های کارآفرینانه - وبلاگ مدیریار

[۸] یک رویکرد (از نظر من بسیار جذاب!) مبنی بر شبکه‌های عصبی برای تحلیل پتننت‌ها و تشخیص فناوری‌های نوظهور

کشاورزی دقیقمتن کاویداده کاویهوش تجاری
NLP Enthusiast | Privacy Fan
شاید از این پست‌ها خوشتان بیاید