به کارگیری هوش مصنوعی در خواندن دست‌ نوشته‌ های باستانی

فناوران - تا امروز کامپیوترها در خواندن دست نوشته های تاریخی و دست خط های شکسته قدیمی پیشرفت چندانی نداشتند، اما حالا به کمک هوش مصنوعی، قدم های موفقیت آمیزی در این راه برداشته شده است.

در بایگانی تیرول، ایالتی در اتریش سندهای زیادی از قرن یازدهم تا به امروز نگهداری می شود. بیشتر آنها سندهای دولتی و قانونی و همچنین کتاب های دست نوشته های مهم از دوران های گذشته هستند. رونوشت سازی این کتاب ها کار ساده ای نیست. اما این مرکز بایگانی در پروژه ای اروپایی با کمک دانشمندان جهت اتوماسیون رونوشت سازی به وسیله فناوری های کامپیوتر همکاری می کند. کریستوفر هچر، مسوول اداره بایگانی دولتی ایالت تیرول می گوید: در نمونه های خط شکسته، تکنیک های جدید هم با مشکل روبه رو می شوند. اما با خوشنویسی خط خوب، سیستم جدید موفقیت های خوبی داشته و به ما کمک بسیاری کرده است.


پروژه READ

دانشمندان در پروژه ای اروپایی با نام «READ» جهت رونویسی و خواندن متونی مانند کتاب ها، نمونه هایی تهیه کردند که در سیستم هایی مانند اپلکیشین گوشی همراه قابل استفاده باشد. این برنامه می تواند با ورق زدن، نوشته ها را تشخیص داده و از آنها بلافاصله عکس برداری کند.

پروژه READ مخفف «Recognition and Enrichment of Archival Documents» به معنای تشخیص و غنی سازی اسناد بایگانی، پروژه ای است که با حمایت مالی اتحادیه اروپا اجرا شده و شامل تحقیقات، تهیه و ساخت شبکه برای خواندن اسناد بایگانی باستانی می شود.

فناوری هوض مصنوعی گسترش یافته در این پروژه برای تشخیص الگوی در خواندن دست خط ها، تحلیل سندهای تصویری بینایی ماشین (پردازش و آنالیز و درک محتوای عکس ها توسط کامپیوتر) و پردازش زبان های طبیعی (Natural language processing) است. همه اطلاعات جمع آوری در این پروژه در مرکز داده ای با نام ترانسکریبوس «Transkribus» جمع آوری و تحلیل می شود و به عنوان منبع برای تشخیص متون دیگر از آنها استفاده خواهد شد.

گانتر مولبرگر، هماهنگ کننده پروژه READ از دانشگاه اینسبروک اتریش می گوید: این ترکیبی از فناوری سطح پائین (پست) و فناوری پیشرفته است. این وسیله یا چادر بسیار ساده فناوری پست است، اما با یک اپلیکیشن فناوری پیشرفته که روی گوشی های هوشمند نصب شده کار می کند. این اپلیکیشن که به یک پلت فرم بزرگ رونوشت سازی متصل است، عکس ها را به سرور ترانسکریبوس ارسال می کند که می تواند متون دستی را تشخیص داده و رونویسی کند.

سرور ترانسکریبوس متونی را ساده سازی و پیاده می کند که در حالت عادی خواندن و بازنویسی آنها سال ها به طول می انجامد. دکتر ماریو کلارر از این فناوری برای خواندن«کتاب قهرمانان» که یک دست نویس 500 صفحه ای است استفاده می کند. این کتاب یکی از مهم ترین متون گلچین های ادبی قرون وسطایی آلمان است که در قرن یازدهم جمع آوری شده است.

ماریو کلارر، استاد ادبیات و فرهنگ تاریخی دانشگاه اینسبروک می گوید: مزیت بزرگ این سیستم این است که به روشی ساده میان تصویر متون و نمونه دست نوشته آن ارتباط برقرار می کند. بنابراین (پلت فرم) رونویس کننده می تواند به سرعت یک تصویر کامل از متن داشته باشد. این موضوع اشتباهات را به حداقل می رساند. کاری که هیچ سیستم دیگری قادر به انجام آن نیست.

سرور دانشگاه اینبسروک ازیادگیری ماشین و داده کاوی در هوش مصنوعی برای آموزش یه کامپیوتر جهت خواندن متون و تشخیص سبک های نوشتاری استفاده می کند. بعد از آنکه کاربر، بخشی از متن را به صورت دستوشته رونویس می کند، موتور نرم افزار یاد می گیرد که چگونه حروف را بشناسد و رونویس را، آن هم به دقتی قابل توجه به صورت خودکار کامل کند.

گانتر مولبرگر می گوید: من تصویر را به همراه بخشی از متن به کامپیوتر می دهم و بر اساس آن کامپیوتر می تواند این خط و فونت های مشابه آن را یاد بگیرد.

این سیستم می تواند متون دستنویس را از زبان های مختلف رونویسی کند. زیرا دانشمندان، دانش پژوهان، متخصصان بایگانی و داوطلبان بسیاری از کشور های مختلف در این پروژه همکاری کرده اند.

راز 600 ساله

حدودا 100 سال پیش بود که کتاب خطی 240 صفحه ای ووینیچ در اروپا کشف شد. این کتاب با زبان رمزی به رشته تحریر در آمده و حاوی دست نوشته های مرموزی است که نه زبان شناسان و نه کارشناسان رمزگشایی قادر به درکش نبوده اند. حالا خبر رسیده که محققان کانادایی با کمک هوش مصنوعی گامی بزرگ و ارزنده را در راستای رمزگشایی از مفاهیم پنهان این دست نوشته برداشته اند.

خود کتاب به نام ویلفرید ووینیچ، یک کتابفروش لهستانی اسم گذاری شده که در سال 1912 میلادی این نسخه خطی را خریداری کرد. زبان مورد استفاده در کتاب ناشناخته و رمزگذاری شده است که این مساله (هم ناشناخته بودن زبان و هم رمزنگاری شده بودن آن) محققان را حسابی سردرگم کرده و دست کم تا امروز رمزگشایی و تفسیر محتوای آن را غیرممکن کرده بود.

دست نوشته ووینیچ شامل صدها صفحه شکننده می شود (که البته برخی صفحه های آن نیز گم شده اند) که سطور آن نیز از چپ به راست نگاشته شده. اغلب صفحات همانطور که گفته شد با تصویرسازی و نمودارهایی که به گیاهان و نمادهای ستاره شناسی مربوط می شوند پر شده اند اما اینکه متون آن چه معنایی می دهند کسی نمی داند. با در نظر داشتن آنچه گفته شد این کتاب خطی عنوان مهم ترین راز جهان را به خود اختصاص داده چراکه چندین دهه است رمزگشایان حرفه ای و آماتور را به خود مشغول ساخته است.

از جنگ جهانی دوم تا الان نظریه های مختلفی در رابطه با زبان رمزگذاری شده این کتاب مطرح شده، از جمله آنکه محتوای آن از طریق طرح های رمزگذاری نیمه تصادفی، واروواژه یا سیستم های نوشتاری فاقد حروف صدادار تهیه شده است. برخی حتی نظرشان این است که کتاب ووینیچ یک شوخی استادانه است.

همین امر گرگ کوندارک، کارشناس پردازش زبان طبیعی دانشگاه آلبرتا را بر آن داشت تا از هوش مصنوعی برای رمزگشایی این کتاب کمک بگیرد. وی با همراهی یکی از شاگردانش در بررسی های خود دریافت که این کتاب به زبان عبری نوشته شده و حروف در آن با الگویی ثابت کنار هم قرار گرفته اند. البته این دانشمندان هنوز معنای دست نوشته های ووینیچ را نمی دانند، اما قرار است محققان دیگری نیز به این پروژه ملحق شوند.

گام نخست دانشمندان تشخیص زبان رمزگذاری شده کتاب بود. برای این منظور هوش مصنوعی طراحی شده آنها متن «بیانیه جهانی حقوق بشر» را از نظر گذراند که به 380 زبان مختلف ترجمه شده است و در آن به دنبال الگوها گشت. بعد از این کار هوش مصنوعی با اطمینان بالا به این نتیجه رسید که دست نوشته ووینیچ به زبان عبری رمزگذاری شده است. گام بعدی آن رمزگشایی از این زبان بود.

آنها در مرحله بعدی تلاش کردند فرضیه مطرح شده از سوی دانشمندان قبلی را مبنا قرار دهند که براساس آن این کتاب از طریق آلفاگرام نوشته شده است یعنی کلماتی که در آن متون جای خود را به واروواژه هایی با ترتیب حروف الفا داده اند برای مثال آلفا گرام DIGIATO به ADGIIOT تبدیل می شود. تیم تحقیق در ادامه الگوریتمی توسعه دادند که می توانست این واروواژه ها را گرفته و کلمات عبری اصلی را تحویل بدهد. در ادامه مشخص شد که بالغ بر 80 درصد کلمات در یک دیکشنری عبری قرار داشتند اما معلوم نیست که آیا به صورت کلی چینش این کلمات معنا و مفهوم خاصی دارد یا خیر.

و در گام نهایی دانشمندان موفق شدند عبارت اولیه کتاب را رمزگشایی کنند و آن را در اختیار یک متخصص علوم رایانه مسلط به زبان عبری قرار دادند که وی نیز اعلام کرد نتیجه کار را نمی توان یک جمله منسجم و کامل دانست.

با این حال اما بعد از یک یا دو مورد اصلاح دیکته ای کلمات این جمله، گوگل ترنسلیت موفق شد آن را به یک جمله انگلیسی قابل فهم بردگردان کند و معنا این بود: او پیشنهاداتی به کشیش، مردی که در خانه بود، من و دیگر مردم داد.

البته باز هم باید تاکید کنیم که دانشمندان این دست نوشته را به صورت کامل رمزگشایی نکرده اند و صرفا موفق شده اند زبان اصلی آن و روش رمزگذاری اش را تشخیص دهند و آنطور که کوندارک  گفته تا زمانی که مورخان زبان عبری این کتاب را بررسی نکنند امکان رمزگشایی کاملش فراهم نخواهد بود.

تیم تحقیق حالا در نظر دارند الگوریتم تازه خود را روی دیگر دست نوشته های تاریخی پیاده سازی کنند و این مساله از پتانسیل های بالای هوش مصنوعی برای حل مسایلی خبر می دهد که مدت هاست ذهن انسان امروزی را به خود مشغول کرده است.

برگرفته از

تارنمای فناوران