چکیده
افزایش دسترس پذیری منابع اطلاعاتی XML ناهمگون تعداد مسائل مرتبط با اینکه چگونه دادههای نیمه ساختار یافته نشان داده شوند و مدیریت شوند را افزایش داد. اگر چه منابع XML میتوانند محتوا و ساختار مناسبی را نشان دهند، اسناد XML متفاوت ممکن است در اصل معنا شناسی مربوطه را با تعریف ذهنی از تگهای نشانه گذاری رمزگذاری کند. کشف دانش برای استنتاج سازمان معنایی اسناد XML به چالش اصلی در مدیریت داده XML تبدیل شد. در این زمینه، مسئله خوشه بندی داده XML را بر طبق ساختار و به همین ترتیب ویژگیهای محتوای غنی با دانش هستی شناسی واژگان بررسی میکنیم. فریم ورکی را برای خوشه بندی ساختارهای XML منسجم به صورت معنایی بر اساس مدل نمایش تراکنشی پیشنهاد میکنیم. آزمایشها بر مجموعه داده واقعی بزرگ شواهدی را ارائه میدهند، مبنی بر اینکه رویکرد پیشنهادی در تشخیص گروه داده XML به شدت موثر است و ساختار و یا پیوندهای درونی محتوا را نشان میدهد.
مقدمه
XML به عنوان نیروی محرکی برای نمایش و تبادل داده در وب معرفی شد. براستی، سیمای خود توصیف و نیمه ساختاریافته XML مدل کردن طیف گستردهای از دادهها را به عنوان اسناد XML، به منظور تحقق وعدههای وب نسل بعد، امکان پذیر ساخت.
منابع داده XML ساختارها و محتوای متفاوتی را نشان میدهند. تگ نشانه گذاری، که نقش پایه را برای تحمیل ساختار به سند بازی میکنند، عوامل ذهنی را که نام نویسنده را در اطلاعات برنامه نویسی هک میکند را منعکس میکند. در نتیجه، داده XML به صورت متفاوت اعلام شده ممکن است " از لحاظ معنایی" به درجه خاصی مربوط باشد.
پیش زمینه
تاپل های درخت XML.
تاپلها مفهوم تاپل را در یک پایگاه داده رابطهای همانند سازی میکنند و بسطی از وابستگیهای تابعی برای محیط XML پیشنهاد میکنند. در یک پایگاه داده رابطهای، یک تاپل یک تابع از هر صفت با مقداری از دامنه متناظر است. برطبق [8]، تعریفهای زیر را ارائه میدهیم:
تعریف 2.1 با توجه به XTاز درخت XML، یک تاپل درخت یک زیر درخت ماکسیمال XTاست، به طوری که بر هر ( تگ یا کامل) مسیر pدر XT، پاسخ حداقل یک عنصر است.
مستقیما، یک تاپل درخت یک نمایش درخت (یا زیر درختی) از مجموعه کاملی از مفاهیم متمایز است که بر طبق معنا شناسی ساختاری درخت اصلی با هم همبسته هستند. علاوه بر این، تاپلهای درخت استخراج شده از همان درخت، ساختار یکسانی را حفظ میکنند، در حالی که روشهای متفاوتی از محتوای مربوطه ساختاری را منعکس میکند که میتواند طبیعتآ از درخت اصلی استنباط شده باشد.
استخراج ویژگی های XML
ویژگی های ساختار
مسیرهای تگ مبنای طبیعی را برای استخراج ویژگیهای ساختاری از داده XML نشان میدهند. به هر حال، اگر چه اطلاعات مهمی میتواند از تگهای XML استنتاج شود، عوامل ذهنی سَبک نویسندگان را در کدینگ اطلاعات برای XML منعکس میکند، بنابراین سازگاری اطلاعات در میان داده XML معمولاً تضمین نمیشود. ایده کلیدی در فراتر رفتن از یک استفاده مستثنی از متن نهفته است، برای مثال نام تگ، با نگاشت آن به مفاهیم مرتبط معنایی و هر مفهوم به فضای هستی شناسی مربوط است و با یک معنی لغوی، یا حس، مربوط به نام تگ نشان داده میشود. دانش هستی شناسی واژگان میتواند از این رو برای غنی سازی معنایی ویژگیها استخراج شده از نامهای تگ XML مورد استفاده قرار گیرد.
خوشه بندی تراکنشی XML
تشابه آیتم در تاپل درختی XML
در تنظیم ما ویژگیهای XML در آیتمهای تاپل درختی تعبیه شدهاند. مفهوم شباهت بین آیتمهای تاپل درختی تابعی از تشابه بین ساختار چشم انداز آنها و ویژگیهای محتوایی هستند.
ارزیابی آزمایشی
توصیف داده. برای ارزیابی فریم ورک خوشه بندی پیشنهادی، پایگاه داده XML واقعی را با داشتن ویژگیهای متفاوت بر طبق سه جنبه اصلی در نظر میگیریم: ترکیب مجموعه داده (یک سند واحد یا مجموعه اسناد)، پیچیدگی ساختاری از نظر درجه عناصر تو در تو، با توجه به اثرات اندازه و تعداد عناصر متنی. جنبه دوم یک دلیل مهم است که باید مجموعه دادههای مصنوعی را در نظر نگیریم: براستی، آنها عناصری شامل متنهای زبان طبیعی منسجم ارائه نمیدهند، اما حداقل از یک ژنراتوراتوماتیک استفاده میکنند که کلماتی که بیشتر از همه در یک متن نثر ثابت رخ داده اند را به عنوان اشتراکی برای تقلید از توزیع متن آماری واقعی در نظر میگیرند.
نتایج و تنظیمات آزمایشی
آزمایشها به منظور تست توانایی فریم ورک پیشنهادی در کسب اهداف زیر اجرا شدند:
1. خوشه بندی ساختار محور: تماییز بین کلاسهایی با ساختار همگن از تاپلهای درختی XML.
2. خوشه بندی محتوا محور: شناسایی کلاسهایی از تاپلهای درختی XML که یک محتوا را به اشتراک می گذارند.
3. خوشه بندی محتوا محور/ ساختار محور: این عمومی ترین هدف است و از سناریوهای متفاوت تشکیل شده است، که از تشخیص ساختار مشترک در سراسر موضوعات متفاوت، یا برعکس، برای شناسایی کلاسهایی از سه تاپل که هردو موضوعات مشترک را پوشش می دهند و به یک گروه ساختاری تعلق دارند تشکیل شده است – برای مثال، تاپلهای درخت DBLP که بر "منطق محاسباتی" کار میکنند باید با خوشههای مشخصی بسته به اینکه آیا با مقالات کنفرانسی، مقالات ژورنالی، یا کتابها متناظر هستند یا نه؛ گروه بندی شوند.
نتیجه گیری و کارهای آینده
فریم ورک خوشه بندی جدیدی را برای سازمان معنایی داده XML ارائه دادیم. ویژگیهایی را برای نمایش مناسب اطلاعات ساختاری و محتوایی از اسناد XML بررسی کردیم. ویژگیهای پشتیبانی از پایگاه دانش لغوی را غنی ساختیم، که نقش اصلی را در استنتاج معانی XML بازی میکند. از مفاهیم تاپل درخت برای استخراج ساختار معنایی منسجم از اسناد XML استفاده میکنیم، نشان دادیم که تاپلهای درخت XML به آسانی به عنوان تراکنش مدل میشوند. یک رویکرد خوشه بندی تفکیکی توسعه یافته است و به دامنه تراکنشی XMLاعمال شده است. ارزیابی خوشه بندی اثربخشی بسیار بالایی را برای مجموعه داده واقعی بزرگ نشان میدهد، که استدلال میکند که آیتمهای تاپل درختی XML ویژگیهای قدرتمندی برای خوشه بندی XMLمعنایی موثر به همراه دارد.
جهات آشکاری برای تحقیقات آینده وجود دارد. برخی از این موارد در راستای تحکیم جنبههای خاصی از چارچوب است، مانند توسعه الگوریتم خوشه بندی جدید که قادر است بهترین تناسب را با مدل تراکنش XMLداشته باشد و در عین حال حداقل نیازمندیهای مقیاس پذیری، کشف خوشه در زیر فضا، و تگ گذاری آگاهانه خوشه را برآورده سازد. علاوه بر این، نقش دانش هستی شناسی در پشتیبانی از تشخیص روابط در میان داده XML نیازمند بررسی بهتر است. بنابراین، باید ترکیب هستی شناسی کاربردی در فریم ورک خوشه بندی برای بهره بردن از مدلهای مفهومی بسط یافته که نه تنها اشیای XML، روابط و محدودیتهای آن را نشان میدهد؛ بلکه "نقش ها"یی را با توجه به چگونگی ظاهر شدن اشیا در یک منبع XMLنشان میدهد.
این مقاله در سال 2006 در نشریه Siam و در مجموعه مقالات کنفرانس بین المللی SIAM، توسط دانشگاه کالابریا منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله به سوی خوشه بندی معنایی XML در سایت ای ترجمه مراجعه نمایید.