در دنیای فناوری اطلاعات، اصطلاح "اطلاعات" برای نشان دادن دانش مربوط به اشیا ، واقعیتها ، حوادث ، چیزها ، فرایندها یا ایدهها، استفاده میشود (ISO / IEC 2382) و از اصطلاح "داده" برای نشان دادن بازنمایی مجدد اطلاعات به روشی رسمی و مناسب برای ارتباطات، تفسیر یا پردازش، استفاده میشود (ISO / IEC 2382).
دادهی پرتابل یا دادهی قابل حمل، دادهای است که بهصورت مجزا از نرمافزاری که برای تولید آن استفادهشده، معنیدار است. دادههای پرتابل باید معنای خود را بهگونهای حفظ کنند که اطمینان حاصل شود که اطلاعات بهطور قابل اعتمادی به دادهها تبدیل و حفظ میشوند تا آنها را بتوان در هر نرمافزار دیگری مورد استفاده قرار داد.
همانطور که تجهیزات یک ساختمان ازنظر قانونی، بخشی از آن هستند، وقتیکه دادهها به بخشی جداییناپذیر از یک نرمافزار تبدیل شوند به این معنی که فقط در آن نرمافزار معنی داشته باشند، ازنظر قانونی بخشی از نرمافزار میشوند. با جدا نگهداشتن دادهها از برنامههای نرمافزاری میتوان مالکیت معنوی دادهها را از مالکیت معنوی نرمافزار، جدا کرد.
دادههای قابل حمل با جلوگیری از قالببندی یا رمزگذاری دادهها برای وابستگی همیشگی به نرمافزارها، از مالکیت معنوی دادهها محافظت میکنند.
برای اینکه دادهها، قابل حمل باشد به یک نام فایل الکترونیک (filename)، یک رمزگذاری کاراکتر (character encoding)، یک نحو (syntax) و رمزگذاری معنایی صریح (explicit semantic encoding) نیاز است.
نام فایل:
اطلاعات بهصورت باینری در فایلهای الکترونیک ذخیره میشوند که آن فایلها دارای یک نام هستند. قراردادهای عمومی نامگذاری فایل شامل یک نام فایل پایه و یک پسوند اختیاری است که از هم تفکیک هستند. سیستمهای مختلف فایل (NTFS ، CDFS ، exFAT ، UDFS ، FAT ، FAT32) ، قوانین مشخصی برای طول نام فایل و کاراکترهای مجاز برای نامگذاری دارند. فایلها انواع مختلفی را شامل میشوند مانند فایلهای تجاری مانند فایل های صفحه گسترده مانند اکسل، فایلهای ورد، اکسس و فایلهای غیرتجاری مانند XML، SDF و غیره. از این میان فایلهای xml و SDF چون تجاری نیستند، برای خواندن آنها نیازی به بکار بردن نرمافزارهای تجاری مانند اکسل و ورد و غیره نیست.
رمزگذاری کاراکتر:
برای ذخیره اطلاعات بهعنوان داده، نیاز به استفاده از یک استاندارد رمزگذاری کاراکتر برای تبدیل کاراکترها به نمایش دودویی آنها و همچنین یک "نحو" ، که دستور زبان است، میباشند. همانطور که یک زبان دارای نحوی است که مشخص میکند چه ترکیبی از کاراکترها کلمات معتبر را تشکیل میدهند و چگونه کلمات با علائم نگارشی ترکیب میشوند تا جملهها و پاراگرافها را بسازند، رایانهها نیز از نحو برای سازماندهی بایتها در ساختاری که برنامهها درک میکنند استفاده میکنند.
برای تبدیل کاراکترهای قابل خواندن انسان به باینری قابل پردازش کامپیوتر، نیاز به استفاده از استاندارد رمزگذاری کاراکتر است. ASCII (کد استاندارد آمریکا برای تبادل اطلاعات) متداولترین استاندارد رمزگذاری کاراکتر برای 128 حرف اصلی لاتین است که میتواند در یک بایت هشت بیتی نشان داده شود. فرمت ASCII به فرمت جهانی (UTF-8) توسعه یافت که این فرمت میتواند 1،112،064 کاراکتر را با استفاده از چندین بایت هشت بیتی رمزگذاری کند.
نحو:
قوانین نحوی کلی دادهها اساساً ساده هستند. مقادیر باید برچسبگذاری شوند. این برچسبگذاری اغلب بهعنوان زوج "مشخصه-مقدار"، "کلید-مقدار" یا "ویژگی-ارزش" شناخته میشود که کوچکترین ساختار معنیدار دادهای برای نشان دادن اطلاعات است. دادههای معنیدار باید دارای یک ویژگی مشخص و یک مقدار باشند. مثلاً (13991001) یک مقدار بیمعنی است درحالیکه (تاریخ=13991001) یک زوج مشخصه-مقدار معنیدار است. همچنین (تاریخ = اولین روز ماه دی سال 1399) نیز یک زوج مشخصه-مقدار معنیدار است که فقط به درک ضمنی معنای اصطلاحات "اول" ، "روز" ، "ماه" "دی" و "سال" نیاز دارد که معنای آنها را میتوان در فرهنگ لغت جستجو کرد.
JSON (JavaScript Object Notation) یک نحو استاندارد باز برای ذخیره و انتقال دادههای متشکل از زوجهای مشخصه - مقدار است. این یک نحو معمول است که با اکثر زبانهای برنامهنویسی سازگار است.
رمزگذاری مفهوم:
برای ذخیره اطلاعات بهعنوان دادههای معنیدار، مشخصات و مقادیر ضروری هستند اما کافی نیستند. برای اینکه بتوان دادهها را بهطور قابل اعتمادی به اطلاعات اصلی برگرداند، معانی مشخصهها و مقادیر نیز باید در دسترس باشد.
کلمات یا اختصارات به تنهایی، بسیار ضعیف هستند و مقادیر مخفف شده میتوانند گیجکننده باشند. مثلاً CA میتواند بیانگر California ، Canada ، Cost Analysis و... باشد. برای معنیدار کردن مشخصات و مقادیر نیاز به یک دیکشنری (فرهنگ لغت) است. در دیکشنری هر مفهوم بهصراحت با استفاده از یک عدد ، شناسه مفهوم توصیف و شناسایی میشود. جایگزینی این شماره یا شناسه برای نام مشخصهها یا مقادیر، "رمزگذاری مفهومی" نامیده میشود. استاندارد ISO 22745 یک دیکشنری را با عنوان دیکشنری فنی باز (OTD) معرفی و نحوه ی استفاده از آن را برای داده های اصلی (Master Data) بیان می کند. همچنین با استفاده از استاندارد ISO 8000-115 میتوان یک شناسه مفهوم فرهنگ لغت منحصربهفرد در سطح جهان ایجاد کرد.
موسسهی ECCMA که توسعهدهندهی اصلی استانداردهای ISO 22745 و ISO 8000 است، استاندارد چهارم خود را یعنی ECCMA 4 در مورد دادههای پرتابل معرفی کرد که چکیدهی آن را در این مقاله مطالعه کردید. این استاندارد در آینده بهعنوان یکی دیگر از استانداردهای ISO معرفی خواهد شد.
با توجه استاندارد ECMMA 4، الزامات زیر را برای یک دادهی پرتابل باید رعایت کرد:
1- در یک فایل با فرمت .sdf ذخیره شود.
2- از فرمت UTF-8 برای رمزگذاری کاراکترها استفاده کند.
3- از استاندارد ISO/IEC 21778:2017 برای قوانین نحو استفاده کند.
4- از استاندارد ISO 8000-115 برای رمزگذاری مفهوم استفاده کند.
در مورد استفاده از نرمافزارها، خصوصاً نرمافزارهای کدگذاری (کدینگ) و کاتالوگینگ توجه داشته باشید که پس از اجرای پروژهی کدگذاری، این سازمان خدمات گیرنده است که مالک کدها و کاتالوگهای تولیدشده است. شرکت نرمافزاری نباید دادهها را به نحوی نمایش و خروجی دهد که فقط توسط همان نرمافزار قابل فراخوانی باشد. نرمافزارهای باید قابل خروجی گرفتن در فرمتهای قابل حمل معمول تجاری (فایلهای اکسل یا اکسس) و غیرتجاری (XML یا SDF) را داشته باشد. همچنین دقت شود که شرح کالای ایجادشده، قابلیت تبدیل به مستقیم یا غیرمستقیم به زوجهای مشخصه-ارزش را داشته باشد (متأسفانه این مورد در اکثر نرمافزارها رعایت نمیشود.).
نرمافزار کدینگ و کاتالوگینگ اسپکس با رعایت مالکیت معنوی دادهها، امکان خروجی کامل از دادههای ذخیرهشده را در فرمتهای اکسل و XML فراهم میکند و شرح کالاها را با فرمت eSTS ارائهشده توسط سازمان ECCMA ارائه میکند که فرمتی استاندارد، بخشبندی شده، قابل فهم و قابلیت تبدیل به XML و انتقال آن به نرمافزارهای دیگر است.