Ph.D. in A.I. and Machine learning| Founder Of http://iran-machinelearning.ir | CEO of Saean Ertebat
پردازش زبان های طبیعی (NLP) [3]
منظور از Regular (عبارت قاعده مند)، عبارتی است که با آن بتوانیم به یک دسته کلی از متون ، و یا رشته ها دسترسی داشته باشیم؛ در واقع به عنوان مثال، وقتی بخواهیم به تمامی عبارات که با حرف " آ " شروع شده و با حرف " م " پایان می یابند، می بایست از Regex یا Regular Expression استفاده نماییم.
ما با یک عبارت قاعده مند، می توانیم تمامی زیررشته های (Sub-string) موجود در یک رشته (String) را که در آن صدق می کنند، شناسایی کنیم.
به عنوان شروع موارد زیر را به خاطر داشته باشیم:
- کاراکتر “.” : یعنی هر کاراکتری بجز انتهای خط
- کاراکتر “*” : یعنی به تعداد 0 یا بیشتر کاراکتر
- کاراکتر “+” : یعنی به تعداد 1 یا بیشتر کاراکتر
- کاراکتر”؟” : یعنی مهم نیست در ادامه کاراکتری وجود داشته باشد یا نه
- کاراکتر “d/” : یعنی اگر عدد بود
- کاراکتر “w/” : یعنی اگر حروف, عدد یا کاراکتر “_” بود
- کاراکتر “$” : یعنی پایان رشته ی خط
- کاراکتر”^” : یعنی آغاز رشته ی خط
- عبارت [XYZ] : یعنی یک تک کاراکتر از کلاس کاراکترها
- عبارت [XYZ]+ : یعنی یک یا بیشتر کاراکتر از کلاس کاراکترها
یک کامند خیلی معروفه وجود دارد که قطعاً به گوش شما خورده است (Grep)، که به عنوان ابزاری برای جستجو در متنب هم نظور یافتن الگویی خاص در فایلهای مختلف مورد استفاده قرار میگیرد که به راحتی میتوان این ابزار را با دستور Regex مورد استفاده قرار داد.
خوب نوبت این هست که مقداری دست به کد بشویم. پایتون به صورت پیش فرض و Built-in پکیج کار با Regular Expression دارد که به صورت زیر می توانیم آن را بارگذاری کنیم:
import re
توابع مهم قابل استفاده در Regex عبارتند از :
- Findall()
- Search()
- Split()
- Sub()
به عنوان اولین مثال میخواهیم ببینیم که آیا در کل متن موجود (فرض کنید یک جمله و یا یک متن طولانی از یک وب سایت خبری) جمله ای وجود دارد که با کلمه "من" شروع شده است یا خیر؟
تمامی توابع بر روی این جمله تست و اجرا شده است:
من، سهیل تهرانی پور ،از آکادمی یادگیری ماشین ایران ، در حال نوشتن مقاله پردازش زبان طبیعی ، در ویرگول هستم
(شایان ذکر است می توانید قطعات کد زیر را در یک فایل با پسوند "py." و یا در Jupyter Notebook عیناً Copy-paste کنید و خروجی را مشاهده نمایید.) در ابتدا به بررسی تابع Findall خواهیم پرداخت:
import re
str = "من، سهیل تهرانی پور،از آکادمی یادگیری ماشین ایران، در حال نوشتن مقاله پردازش زبان طبیعی، در ویرگول هستم"
x = re.findall("\Aمن", str)
print(x)
if (x):
print("بله، موجود می باشد")
else:
print("خیر، متاسفانه موجود نیست")
خروجی این دستور در پایتون به صورت زیر خواهد بود:
['من']
بله، موجود می باشد
در ادامه برای بررسی مثال دستور Search از پکیج Regex به صورت زیر می توانیم عمل کنیم:
import re
str = "من، سهیل تهرانی پور،از آکادمی یادگیری ماشین ایران، در حال نوشتن مقاله پردازش زبان طبیعی، در ویرگول هستم"
x = re.search("[سهیل]", str)
print(" :کلمه مورد نظر در موقعیت زیر می باشد "+"\n" , x.start())
خروجی این دستور به صورت زیر خواهد بود:
کلمه مورد نظر در موقعیت زیر می باشد :
4
همانطور که در شکل زیر مشاهده می فرمایید بخشی از کدهای نوشته شده به زبان پایتون در Jupyter Notebook آورده شده است. برای دوستانی که حوصله سر و کله زدن با IDE های مختلف رو ندارند، این بهترین گزینه است. کافیه Anaconda رو از این لینک دانلود کنید و دست به کد بشوید.
در بخش سوم، شاید یکی از مهمترین توابع در پردازش زبان طبیعی (NLP) را خواهیم داشت «تابع Split» که هر رشته به عنوان ورودی را به بخش های کوچکتر بر اساس درخواست ما تقسیم می کند.
import re
str = "من، سهیل تهرانی پور ،از آکادمی یادگیری ماشین ایران ، در حال نوشتن مقاله پردازش زبان طبیعی ، در ویرگول هستم"
x = re.split("\s", str)
print(x)
خروجی این کد به صورت زیر می باشد:
در این جا چون تابع Split را با s\ فراخوانی کرده ایم، در جمله ورودی به ازای هر White Space که می بیند، جداسازی را انجام می دهد.
['من،', 'سهیل', 'تهرانی', 'پور', '،از', 'آکادمی', 'یادگیری', 'ماشین', 'ایران', '،', 'در', 'حال', 'نوشتن', 'مقاله', 'پردازش', 'زبان', 'طبیعی', '،', 'در', 'ویرگول', 'هستم']
در ادامه تابع مهم دیگری که به ویژه در پیش پردازش متون مورد استفاده قرار می گیرد را بررسی می نماییم. تابع SUB که جهت جایگزینی یک کاراکتر یا رشته با کاراکتر یا رشته دیگر به صورت زیر خواهد بود:
در مثال زیر، (فاصله ویرگول) به (ویرگول) تبدیل شده است.
import re
str = "من، سهیل تهرانی پور ،از آکادمی یادگیری ماشین ایران ، در حال نوشتن مقاله پردازش زبان طبیعی ، در ویرگول هستم"
x = re.sub(" ،", "،", str)
print(x)
خروجی دستور بالا به صورت زیر خواهد بود:
من، سهیل تهرانی پور،از آکادمی یادگیری ماشین ایران، در حال نوشتن مقاله پردازش زبان طبیعی، در ویرگول هستم
در مثال زیر به جای «آکادمی یادگیری ماشین ایران» کلمه «Iran Machine Learning» را جایگزین خواهیم نمود:
import re
str = "من، سهیل تهرانی پور ،از آکادمی یادگیری ماشین ایران ، در حال نوشتن مقاله پردازش زبان طبیعی ، در ویرگول هستم"
x = re.sub("یادگیری ماشین ایران", "Iran Machine Learning", str)
print(x)
از تابع Sub و Split به عنوان توابع اصلی در پیش پردازش متون طبیعی یاد می شود. از آن ها در روزهای بعدی که در مورد NLTK صحبت خواهیم نمود، بیشتر می شنویم.
من، سهیل تهرانی پور، قصد دارم تا از طریق ویرگول برای شما بیشتر از NLP بگم تا بتونیم در کنار هم زبان قشنگ فارسی رو جهانی تر کنیم.
بیاین با هم یادگیری ماشین، یاد بگیریم. (Keep Calm and Learn Machine Learning)
مطلبی دیگر از این انتشارات
فریلنسری چیست و چگونه میتوان فریلنسر شد؟
مطلبی دیگر از این انتشارات
تفاوت SOA و Microservices
مطلبی دیگر از این انتشارات
سکوی ابری(Platform as a Service) زس