ای ترجمه
ای ترجمه
خواندن ۶ دقیقه·۲ سال پیش

به سوی خوشه بندی معنایی XML (مقاله ترجمه شده)

چکیده

افزایش دسترس پذیری منابع اطلاعاتی XML ناهمگون تعداد مسائل مرتبط با اینکه چگونه داده‌های نیمه ساختار یافته نشان داده شوند و مدیریت شوند را افزایش داد. اگر چه منابع XML می‌توانند محتوا و ساختار مناسبی را نشان دهند، اسناد XML متفاوت ممکن است در اصل معنا شناسی مربوطه را با تعریف ذهنی از تگ‌های نشانه گذاری رمزگذاری کند. کشف دانش برای استنتاج سازمان معنایی اسناد XML به چالش اصلی در مدیریت داده XML تبدیل شد. در این زمینه، مسئله خوشه بندی داده XML را بر طبق ساختار و به همین ترتیب ویژگی‌های محتوای غنی با دانش هستی شناسی واژگان بررسی می‌کنیم. فریم ورکی را برای خوشه بندی ساختارهای XML منسجم به صورت معنایی بر اساس مدل نمایش تراکنشی پیشنهاد می‌کنیم. ‌آزمایش‌ها بر مجموعه داده واقعی بزرگ شواهدی را ارائه می‌دهند، مبنی بر اینکه رویکرد پیشنهادی در تشخیص گروه داده XML به شدت موثر است و ساختار و یا پیوندهای درونی محتوا را نشان می‌دهد.

مقدمه

XML به عنوان نیروی محرکی برای نمایش و تبادل داده در وب معرفی شد. براستی، سیمای خود توصیف و نیمه ساختاریافته XML مدل کردن طیف گسترده‌ای از داده‌ها را به عنوان اسناد XML، به منظور تحقق وعده‌های وب نسل بعد، امکان پذیر ساخت.

منابع داده XML ساختارها و محتوای متفاوتی را نشان می‌دهند. تگ نشانه گذاری، که نقش پایه را برای تحمیل ساختار به سند بازی می‌کنند، عوامل ذهنی را که نام نویسنده را در اطلاعات برنامه نویسی هک می‌کند را منعکس می‌کند. در نتیجه، داده XML به صورت متفاوت اعلام شده ممکن است " از لحاظ معنایی" به درجه خاصی مربوط باشد.

پیش زمینه

تاپل‌ های درخت XML.

تاپل‌ها مفهوم تاپل را در یک پایگاه داده رابطه‌ای همانند سازی می‌کنند و بسطی از وابستگی‌های تابعی برای محیط ‌XML پیشنهاد می‌کنند. در یک پایگاه داده رابطه‌ای، یک تاپل یک تابع از هر صفت با مقداری از دامنه متناظر است. برطبق [8]، تعریف‌های زیر را ارائه می‌دهیم:

تعریف 2.1 با توجه به XTاز درخت XML، یک تاپل درخت یک زیر درخت ماکسیمال XTاست، به طوری که بر هر ( ‌تگ یا کامل) مسیر pدر XT، پاسخ حداقل یک عنصر است.

مستقیما، یک تاپل درخت یک نمایش درخت (یا زیر درختی) از مجموعه کاملی از مفاهیم متمایز است که بر طبق معنا شناسی ساختاری درخت اصلی با هم همبسته هستند. علاوه بر این، تاپل‌های درخت استخراج شده از همان درخت، ساختار یکسانی را حفظ می‌کنند، در حالی که روش‌های متفاوتی از محتوای مربوطه ساختاری را منعکس می‌کند که می‌تواند طبیعتآ از درخت اصلی استنباط شده باشد.

استخراج ویژگی‌ های XML

ویژگی‌ های ساختار

مسیرهای تگ مبنای طبیعی را برای استخراج ویژگی‌های ساختاری از داده ‌XML نشان می‌دهند. به هر حال، اگر چه اطلاعات مهمی می‌تواند از تگ‌های ‌XML استنتاج شود، عوامل ذهنی سَبک نویسندگان را در کدینگ اطلاعات برای ‌XML منعکس می‌کند، بنابراین سازگاری اطلاعات در میان داده ‌XML معمولاً تضمین نمی‌شود. ایده کلیدی در فراتر رفتن از یک استفاده مستثنی از متن نهفته است، برای مثال نام‌ تگ، با نگاشت آن به مفاهیم مرتبط معنایی و هر مفهوم به فضای هستی شناسی مربوط است و با یک معنی لغوی، یا حس، مربوط به نام تگ نشان داده می‌شود. دانش هستی شناسی واژگان می‌تواند از این رو برای غنی سازی معنایی ویژگی‌ها استخراج شده از نام‌های تگ ‌XML مورد استفاده قرار گیرد.

خوشه بندی تراکنشی XML

تشابه آیتم در تاپل درختی XML

در تنظیم ما ویژگی‌های ‌XML در آیتم‌های تاپل درختی تعبیه شده‌اند. مفهوم شباهت بین آیتم‌های تاپل درختی تابعی از تشابه بین ساختار چشم انداز آن‌ها و ویژگی‌های محتوایی هستند.

ارزیابی آزمایشی

توصیف داده. برای ارزیابی فریم ورک خوشه بندی پیشنهادی، پایگاه داده ‌XML واقعی را با داشتن ویژگی‌های متفاوت بر طبق سه جنبه اصلی در نظر می‌گیریم: ترکیب مجموعه داده (یک سند واحد یا مجموعه اسناد)، پیچیدگی ساختاری از نظر درجه عناصر تو در تو، با توجه به اثرات اندازه و تعداد عناصر متنی. جنبه دوم یک دلیل مهم است که باید مجموعه داده‌های مصنوعی را در نظر نگیریم: براستی، آن‌ها عناصری شامل متن‌های زبان طبیعی منسجم ارائه نمی‌دهند، اما حداقل از یک ژنراتوراتوماتیک استفاده می‌کنند که کلماتی که بیشتر از همه در یک متن نثر ثابت رخ داده اند را به عنوان اشتراکی برای تقلید از توزیع متن آماری واقعی در نظر می‌گیرند.

نتایج و تنظیمات آزمایشی

‌آزمایش‌ها به منظور تست توانایی فریم ورک پیشنهادی در کسب اهداف زیر اجرا شدند:

1. خوشه بندی ساختار محور: تماییز بین کلاس‌هایی با ساختار همگن از تاپل‌های درختی ‌XML.

2. خوشه بندی محتوا محور: شناسایی کلاس‌هایی از تاپل‌های درختی ‌XML که یک محتوا را به اشتراک می گذارند.

3. خوشه بندی محتوا محور/ ساختار محور: این عمومی ترین هدف است و از سناریوهای متفاوت تشکیل شده است، که از تشخیص ساختار مشترک در سراسر موضوعات متفاوت، یا برعکس، برای شناسایی کلاس‌هایی از سه تاپل که هردو موضوعات مشترک را پوشش می دهند و به یک گروه ساختاری تعلق دارند تشکیل شده است – برای مثال، تاپل‌های درخت DBLP که بر "منطق محاسباتی" کار می‌کنند باید با خوشه‌های مشخصی بسته به اینکه آیا با مقالات کنفرانسی، مقالات ژورنالی، یا کتاب‌ها متناظر هستند یا نه؛ گروه بندی شوند.

نتیجه گیری و کارهای آینده

فریم ورک خوشه بندی جدیدی را برای سازمان معنایی داده ‌XML ارائه دادیم. ویژگی‌هایی را برای نمایش مناسب اطلاعات ساختاری و محتوایی از اسناد ‌XML بررسی کردیم. ویژگی‌های پشتیبانی از پایگاه دانش لغوی را غنی ساختیم، که نقش اصلی را در استنتاج معانی ‌XML بازی می‌کند. از مفاهیم تاپل درخت برای استخراج ساختار معنایی منسجم از اسناد ‌XML استفاده می‌کنیم، نشان دادیم که تاپل‌های درخت ‌XML به آسانی به عنوان تراکنش مدل می‌شوند. یک رویکرد خوشه بندی تفکیکی توسعه یافته است و به دامنه تراکنشی ‌XMLاعمال شده است. ارزیابی خوشه بندی اثربخشی بسیار بالایی را برای مجموعه داده واقعی بزرگ نشان می‌دهد، که استدلال می‌کند که آیتم‌های تاپل درختی ‌XML ویژگی‌های قدرتمندی برای خوشه بندی ‌XMLمعنایی موثر به همراه دارد.

جهات آشکاری برای تحقیقات آینده وجود دارد. برخی از این موارد در راستای تحکیم جنبه‌های خاصی از چارچوب است، مانند توسعه الگوریتم خوشه بندی جدید که قادر است بهترین تناسب را با مدل تراکنش ‌XMLداشته باشد و در عین حال حداقل نیازمندی‌های مقیاس پذیری، کشف خوشه در زیر فضا، و ‌تگ گذاری آگاهانه خوشه را برآورده سازد. علاوه بر این، نقش دانش هستی شناسی در پشتیبانی از تشخیص روابط در میان داده ‌XML نیازمند بررسی بهتر است. بنابراین، باید ترکیب هستی شناسی کاربردی در فریم ورک خوشه بندی برای بهره بردن از مدل‌های مفهومی بسط یافته که نه تنها اشیای ‌XML، روابط و محدودیت‌های آن را نشان می‌دهد؛ بلکه "نقش ها"یی را با توجه به چگونگی ظاهر شدن اشیا در یک منبع ‌XMLنشان می‌دهد.

این مقاله در سال 2006 در نشریه Siam و در مجموعه مقالات کنفرانس بین المللی SIAM، توسط دانشگاه کالابریا منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله به سوی خوشه بندی معنایی XML در سایت ای ترجمه مراجعه نمایید.

‌ xmlمقاله خوشه بندیمقاله XML معناییمقاله فریم ورک
خدمات ارائه مقالات علمی و سفارش ترجمه تخصصی
شاید از این پست‌ها خوشتان بیاید