۱۳۸۹ فروردین ۲۶, پنجشنبه

extra rport 1

فراداده و تاریخچه Meta Data

فراداه یا متادیتا داده ای درباره خود داده است. به عنوان مثال، یک کتابخانه را در نظر بگیرید، داده هایی که در کارتابل محل قرار گرفتن کتاب ها را مشخص می کنند، به خودی خود معنی ندارند؛ اما اطلاعاتی را در رابطه با داده ها می دهند( به راحتی می توان کتاب را معادل با داده دانست) که محل آنها در بستر کتابخانه مشخص می شود.

در سال 1995 در دوبلین ایالت اوهایوی آمریکا نشستی برگزار شد . در آن نشست برای نخستین بار برای متادیتای استفاده شده در بستر وب ، استانداردی تعریف شد. از این استاندارد به عنوان استاندارد Dublin Core یاد می کنند. در این کنفرانس به هر داده موجود در وب به عنوان یک منبع اطلاعاتی نگاه شده و برای آن مجموعه ای شامل 15 عنصر (rights,coverage,source,relation, language, identifier, format, type, date, contributor, publisher, description, subject, creator, title) تعریف شده است. در سال های اخیر با اضافه کردن سه عنصر جدید این استاندارد کامل تر شد و هنوز هم هر ساله این کنفرانس برگزار می شود.

در عمل Dublin Core نخستین حرکت رسمی در جهت توسعه فراداده بود، اما به زودی نیازهای جدید دیگری مطرح شد که نشان داد وجود مجموعه ای از عناصر برای همه داده ها نه تنها کافی نیست، بلکه جوابگوی بسیاری از سوال ها نیز نخواهد بود. به این ترتیب با استفاده از مبحث Dublin Core معماری Warwick Framework متولد شد که عملاً از Dublin Core به عنوان یکی از لایه های اصلی این معماری استفاده شده بود.

پیشرفت در راستای فراداده به سرعت دنبال می شد تا در نهایت RDF (سرنام Resource Description Framework) متولد شد. RDF زبانی است که برای بیان فراداده استفاده می کنیم. با کمی اغماض می توانیم RDF را حاصل بسط جامع Waraick Framework بدانیم. اگر بخواهیم در رابطه با RDF یک توضیح کلی بدهیم، می توانیم اینطور بیان کنیم که در RDF تمام اشیاء موجود در بستر وب مانند صفحات وب، تصاویر، فایل ها و ... به عنوان منابعی در نظر گرفته می شوند که در رابطه با آنها می توان جملاتی را بیان کرد و RDF با توجه به ساختار کلی این جملات شروع به ساختن فراداده برای صفات مشخصی می کند.

با ارائه RDF بحث فراداده به بلوغ مطلوبی رسید. اما این تازه ابتدای راه بود چرا که فراداده نه تنها کافی نبود، بلکه جوابگوی بسیاری از مشکلات موجود هم نبود و فقط قسمت کوچکی از مشکلات را حل می کرد.

اما مشکل اصلی RDF عدم پشتیبانی از ارتباط است. به بیان دقیق تر صرف داشتن فراداده به این معنی نیست که انسان و کامپیوتر زبان یکدیگر را بفهمند و بتوانند با یکدیگر ارتباط برقرار کنند. اگر به یاد داشته باشید، در تعریف اصلی وب معنایی، هدف، امکان کار کردن انسان و ماشین به صورت مشترک بیان شد. بدیهی است اگر من نتوانم با کامپیوتر به مراوده ومکالمه ( به معنی فهمیدن زبان یکدیگر ) بپردازم، قطعاً نمی توانم به صورت مشترک کاری را انجام دهم. حال سؤال اصلی این استکه اگر من بتوانم هر داده خود را با فراداده مجهز کنم تا کامپیوتر آن را درک کند، در چه صورتی ممکن است فراداده دوباره با مشکل مواجه شود؟ به طور مشخص RDF با 4 مشکل صریح روبرو است :

مشکل اول تعدد معانی یا Polysemy است؛ یعنی لغتی که چندین معنی مختلف دارد. این پدیده در همه زبان های دنیا وجود دارد.در زبان فارسی لغاتی مانند شیر یا گور جزء این دسته از لغات هستند.

مشکل دوم ایهام یا Ambiguity است. در همه زبان های دنیا از این اصطلاحات به وفور استفاده می شود و البته همانطور که می دانیم این اصطلاحات ممکن است دارای معنایی باشند که با معنی لغوی آن ها هیچ سنخیتی ندارد. به این جمله ها دقت کنید : (( بفرستش دنبال نخود سیاه))، (( از این خرس یه مو هم بکنی غنیمته))، ((یه چایی بزن تو رگ)). معنی همه این جملات را حتی بچه های دبستانی ینز می دانند، اما اگر قرار باشد در طی انجام کاری، کامپیوتر با یکی از این جملات برخورد کند،به یقین رفتار متفاوتی از خود بروز می دهد، مثلاً تقاضای خرید نخود سیاه می کند یا ممکن است فرمان تزریق چایی را در رگ صادر کند. همانطور که میبینیم گاهی ساده ترین رفتارها برای ما انسان ها می تواند بغرنج ترین مسائل را برای کامپیوترها به وجود آورد.

مشکل سوم ، هم معنی ها یا Synonyms هستند. با توجه به اینکه موتورهای جست و جو، مبتنی بر کلمات کار می کنند، در بسیاری از مواقع نتیجه به دست آمده اصلاً دلخواه نیست و از سوی دیگر به طور ذاتی موتورهای جست و جو فقط نتایجی را برمی گردانند که حاوی لغت مورد نظر باشد. در حالی که نمایش اطلاعاتی که حاوی لغاتی مترادف با واژه مورد نظر هستند نیز می تواند برای ما مفید باشد. مثلاً اگر جواب های جستجو با لغت (( ترسناک )) شامل جواب های جست و جو با لغت وحشتناک یا دهشت انگیز بشود می تواند برای ما مفید باشد.

مشکل چهارم ، دانش بیان نشده (Tacit Knowledge ) است. در بسیاری از ارتباطات روزانه ما حد مشخصی از دانش را برای فرد مقابل خود قائل هستیم (می دانیم که بعضی از چیزها را همه می دانند ) و مبتنی با این سطوح با فرد مقابل خود ارتباط برقرار می کنیم، اما در رابطه با کامپیوتر این چنین نیست.

و اما راه حل این مشکل ها چیزی نیست جز بیان صریح موضوعات موجود در دامنه مورد بحث، عناصر موضوع مورد بحث، ویژگی های این عناصر و ارتباط هایی که با یکدیگر دارند. از طرف دیگر باید حد و حدود دامنه مورد بحث نیز دقیقاً مشخص شود. نکته دیگر امکان به اشتراک گذاشتن ساختار ادراکی، که برای ماشین و انسان از یک موضوع وجود دارد، میان آن هاست. (برای این کار باید نرم افزاری وجود داشته باشد، بسیاری از Software Agentها همین کار را انجام می دهند) و عمل آخر در نهایت جداسازی دامنه دانش اطلاعاتی با دامنه دانش عملیاتی از یکدیگر است. در اینجا یک نکته بسیار مهم وجود دارد. دانش اطلاعاتی دانشی است که می تواند شما را در جهت تصمیم گیری کمک کند. اما دانش عملیاتی دانشی است که به کمک آن شما تصمیمی را که گرفته اید، اجرا می کنید. تفکیک این دو دانش از یکدیگر بسیار مهم وحیاتی است، چون دسترسی به دانش اطلاعاتی این امکان را به وجود می آورد که بتوانیم از دانش های اطلاعاتی که در حوزه های مختلف وجود دارد، در حوزه های دیگری که از نظر شرایط نزدیک هم هستند، استفاده کنیم. مثلاً قرار ملاقات گذاشتن با رئیس شرکت یا قرار ملاقات گذاشتن با استاد دانشگاه به رغم آنکه دو حوزه مختلف هستند، اما بسیار به یکدیگر شبیه هستند و این امکان را فراهم می کنند که بتوان از دانش یک حوزه در حوزه دیگر استفاده کرد.

جمیع این مسائل و راه حل ها ما را به سمت مفهومی به نام هستی شناسی یا آنتولوژی (Ontology) راهنمایی می کند.

هیچ نظری موجود نیست:

ارسال یک نظر