تصور ارتباط شیوههای متنکاوی و صنعت کشاورزی کمی دور از ذهن است؛ ولی بیایید تصور کنیم که شما، مدیر یک استارتاپ در حوزهی صنایع کشاورزی هستید و در حال تحقیق روی ساخت رباتی هستید که علفهای هرز در باغهای انگور را هرس میکند. برای موفقیت چنین محصولی در بازار به تحقیقات بسیاری نیاز خواهید داشت. شاید مهمتر از همه نیاز دارید که بدانید چه تکنولوژیهایی در این حوزه وجود دارند؟ در اینجا نگاهی گذرا انداختهایم به کمکی که متنکاوی، در یافتن پاسخ این سوال به شما میکند.
پتنتها، یکی از ارزشمندترین مجموعههای داده برای تحلیل هستند. بیش از ۸۰ درصد از اطلاعات جدید در حوزه فناوریها، تنها از طریق پتنتها قابل دستیابی است. اطلاعات حاصل از تحلیل پتنت در سطح استراتژیک، میتواند از طریق استخراج روند فناوری، به شرکتها در تعریف پروژههای توسعه فناوری و انتخاب شرکای مناسب، کمک کند. [۱]
رباتی که بتواند علفهای هرز را در باغ انگور هرس کند، در حیطهی فناوریهای مربوط به کشاورزی دقیق (Precision Agriculture) دستهبندی میشود. در کشاورزی دقیق، تولیدکنندگان تجهیزات کشاورزی میتوانند تغییرات و غیریکنواختیهای داخل مزرعه را شناسایی کرده و سپس با مدیریت این تغییرات در جهت افزایش محصولات زراعی و افزایش بهره وری گام بردارند. [۲]
پس از اینکه به اهمیت پتنتها پی بردیم و تعریف اولیهی کشاورزی دقیق را متوجه شدیم، به EscpaceNet مراجعه میکنیم. EscpaceNet یک پایگاه دادهی عظیم از پتنتهای جهان است که بیش از ۱۱۰ میلیون پتنت را در خود جای داده است. با جستجو در این پایگاه داده، چیزی حدود ۲۸۰۰۰ پتنت را که در حوزهی کشاورزی دقیق هستند، جمعآوری میکنیم.
در حالت کلی تحلیل پتنت یک موضوع تخصصی است. افراد و شرکتهایی هستند که تخصص آنها تهیه گزارشهای زمینهی پتنت (Patent Landscape Report) است. [۳][۴] این گزارشها، شامل جزییات بسیار زیادی هستند و به سوالات متعددی دربارهی یک زمینهی فناوری خاص پاسخ میدهند. هر پتنت از بخشهای زیر تشکیل شده است:
برای مثال با بررسی مجموعه داده جمعآوری شده، نمودار زیر سهم هر کشور از پتنتهای حوزهی کشاورزی دقیق را نشان میدهد. همچنین رنگ قرمز نشاندهندهی این است که پتنت توسط یک شرکت خصوصی و رنگ آبی نشاندهندهی اینکه پتنت توسط مخترع شخصی ثبت شده است.
و یا نمودار زیر که نشان میدهد ۱۰ ثبت کنندهی برتر، در کدام ردهی فناوری، تعداد پتنتهای بیشتری ثبت کردهاند:
و یا نمودارهای دیگری که روند تعداد پتنتها در دستهبندیهای مختلف در طی زمان را مشخص میکنند:
هر جا که صحبت از متون باشد، پای متنکاوی هم در میان خواهد بود. در این مورد ما تنها بخش ادعا (CLAIM) از متن پتنتها را جدا کرده و بعنوان مجموعه داده متنکاوی مورد استفاده قرار میدهیم. ادعا مهمترین بخش پتنت است که در آن مالک پتنت، مستقیما ادعا میکند که پتنت او شامل چه چیزی میشود. فلوچارت زیر روندی است که برای پاکسازی این مجموعه داده استفاده میشود:
هیستوگرام پایین، توزیع تعداد توکنها، پس از پاکسازی؛ در هر یک از پتننتها را نمایش میدهد:
با توجه به اینکه هدف از متنکاوی یافتن تکنولوژیهای مختلف در حوزه کشاورزی دقیق است، نیاز به پیادهسازی یک الگوریتم مدلسازی عناوین (Topic Modelling) داریم. الگوریتمهای بسیاری در این زمینه موجود هستند که بر اساس متدهای مختلف از جمله فاصلهی وکتورِ توکنها از یکدیگر و یا تعداد دفعات تکرار هر توکن در جملات و ... عمل میکنند. الگوریتم LDA یکی از شناخته شدهترین الگوریتمها در این زمینه است که بر روی کتابخانهی GENSIM در پایتون به خوبی پیادهسازی شده و قابل استفاده است. [۵] اجرای چندبارهی این الگوریتم، ثابت میکند که حدود ۱۰ عنوان مجزا در مجموعه داده، بیشترین امتیاز Coherence را دارد.
با بررسی کلمات داخل هر عنوان، میتوان به راحتی موضوعات را برچسپگذاری کرد. برای مثال عنوان هفتم داری مجموعه کلماتی به شکل زیر است که با برچسپ Image Recognition مشخص میکنیم:
Image, detection, laser, illumination, beam, module, hand-supportable, IFD, speckle noise, symbol, camera, light, element, FOV, lens, code, optic, frame
در صورتی که بقیه عناوین را هم به همین شیوه برچسپگذاری کنیم به ۹ عنوان اصلی زیر دست خواهیم یافت: (یکی از تگها در دو عنوان تکرار شده است.)
دستهبندی تکنولوژیهای استفاده شده در پتننتهای کشاورزی دقیق، موضوعی است که در جزییات پتنتها ثبت نمیشوند و میبایست از شیوههای دادهکاوی (مانند متنکاوی) برای یافتن آن استفاده کرد. حال میتوان به سراغ هر یک از این دستهبندیها رفت و فعالترین مالکان پتنت در آنها را بررسی کرد.
علاوه بر پتنتها، میتوان متنکاوی را روی مجموعهدادههای بیشتری نیز پیادهسازی کرد. برای مثال مجموعه دادهای از مقالات منتشر شدهی دانشگاهی و یا پستهای وبلاگی. برای نمونه اینجا، من بیش از هزار پست وبلاگی با کیورد "کشاورزی دقیق" را از وبسایتهای مرتبط کشاورزی جمعآوری کرده و ابر کلمات آنها را تشکیل دادهام، همانطور که میبینید این تکنولوژی تاثیر مهمی در آیندهی محیط زیست ما خواهد داشت.
آنچه مطالعه کردید، بخشی از یک گزارش هوش رقابتی [۶] (Competitive Intelligence) بود که در یک پروژهی دانشگاهی برای شرکت Vitibot تدوین شده است. این گزارش شامل بخشهای دیگری مانند تحلیل شبکهی ارجاع (Citation Network) و یا گزارشهای کیفیتر مانند SWOT و PERSEL نیز میشود. هوش رقابتی به معنی کسب شناخت از هر آن چیزی است که در محیط بیرونی یک کسبوکار رخ میدهد تا بتوان قدرت رقابتپذیری آن کسبوکار را افزایش داد.[۷] همانطور که دیدیم، متنکاوی (و در حالت کلی دادهکاوی) میتواند به کمک استارتاپ کشاورزی شما آمده و شناخت بهتری نسبت به رقبا و وضعیت موجود صنعت به شما ارائه دهد و به یکی از ابزارهای مهم در هوش رقابتی تبدیل شود.
منابع و نوشتههای مرتبط:
[۱] تحلیل پتنت؛ ابزاری کلیدی برای موفقیت کسبوکار - کانون پتنت ایران
[۲] کشاورزی دقیق چیست؟ - وبلاگ اگرونیک
[۳] راهنمای کامل تهیهی گزارش زمینهی پتنت (Patent Landscape Report)
[۴] یک راهنمای کامل و بسیار ارزشمند برای آشنایی با پتنتها و ابزارهای مفید در تحلیل آنها.
[۵] یک راهنمای کامل و گام به گام برای پیادهسازی LDA.
[۶] مدخل هوش رقابتی - ویکیپدیایی انگلیسی
[۷] پیوند هوش رقابتی و استراتژیهای کارآفرینانه - وبلاگ مدیریار