ارزیابی و صحت سنجی
ارزیابی و صحت سنجی
راهکارهای بررسی صحت و دقت دادههای مکانی تولیدشده
توسط کاربران داوطلب
رئوس مطالب فصل چهارم؛ ارزیابی و صحت سنجی
- مقدمه
- ماهیت اطلاعات مردمگستر و معضلات آن
- ارزیابی و صحت سنجی
- صحت مکانی و هندسی
- صحت توصيفی
- تماميت
- یک نمونه عملی و پیادهسازی شده ارزیابی و صحت سنجی اطلاعات VGI
- تائید ویرایش عوارض توسط کاربر مسئول
- جستجوی اطلاعات تغییریافته توسط کاربران و مسئول سیستم
- روش اول جستجوی اطلاعات بر اساس محدوده نمایش نقشه
- روش دوم جستجو بر اساس بازه زمانی تغییرات
- منابع
=================
مقدمه
در سالیان اخیر تحقیقات و پروژههای زیادی درزمینه اطلاعات مکانی مردمگستر صورت گرفته است. یک دسته از تحقیقات بر روی صحت اطلاعات موجود در سایتهای به اشتراکگذاری دادههای مکانی نظیر ،OSM Wikimapiaو Google map تمرکز دارد و در دهه گذشته حجم زیادی از تحقیقات حول اطلاعات مکانی مردمگستر را به خود اختصاص داده است. در دسترس بودن اطلاعات در این سایتها باعث شده است که بسیاری از محققان حوزه اطلاعات مکانی مردمگستر از دادههای این سایتها بهعنوان نمونهای از دادههای مردمگستر استفاده کنند و تاکنون نیز تحقیقات بسیاری در زمینه کیفیت دادههای این سایتها در مناطق مختلفی از دنیا انجامشده است. همانطور که تشریح گردید، جمعسپاری به معنای برونسپاری به گروه فراوانی از کاربران اینترنتی و بهصورت غیرانتخابی اطلاق میشود که ممکن است شامل افراد کارآمد و یا بیتجربه باشند. تمرکز جمعسپاری بر مشارکت دادن جمعیت در فعالیتهایی چون حل مسئله، تولید و توسعه مفاهیمی چون مشارکت در ایده سازی، نوآوری، تولید محتوا، جمعآوری ذهنیت عمومی و فرآیندهای ارائه خدمات است که بر کیفیت محصول، وفاداری و خشنودی مشتری اثر مستقیم دارد. درواقع در حین بهکارگیری این فناوری، بحث اصلی در این نوع تحقیقات بررسی کیفیت اطلاعات مکانی مردمگستر میباشد. بهنوعی با افزایش کیفیت این نوع دادهها برخی مشکلات مربوط به صحت و دقت این دادهها همچون نمادگذاریهای خلاف واقع تعمدانه دادههای مکانی بهصورت چشمگیری کاهش مییابد. از طرفی در بهروزرسانی پایگاه داده، اطمینان از فرادادههای مکانی اهمیت ویژهای دارد. بهخصوص فرادادههایی مثل کیفیت و تاریخ تولید دادههای مکانی که جزو شاخصترین اقلام فراداده میباشند. پایگاه داده مکانی نیز باید دارای دادههای باکیفیت و قابلاعتماد باشد و به همین دلیل دادهها قبل از ورود به پایگاه داده باید کیفیتسنجی شوند و دادههای باکیفیت بالاتر جدا شوند.
ماهیت اطلاعات مردمگستر و معضلات آن
غیررسمی بودن، عمودی و افقی بودن ارتباطات و در انحصار نبودن اطلاعات ازجمله مزایای جمعسپاری است. از زمان ارائه این تعریف تاکنون، تحقیقات مختلفی درباره اطلاعات مکانی مردمگستر به انجام رسیده است و در بسیاری از آنها کیفیت این اطلاعات بهعنوان بزرگترین مشکل آن مطرحشده است. ازاینرو بررسی صحت و دقت دادههای جمعآوریشده توسط کاربران پیش از انتشار رسمی آنها ازجمله چالشهای جدی بهکارگیری این فنآوری در حوزه وب میباشد. کیفیت این نوع اطلاعات را میتوان با استفاده از اندازهگیریها و المانهای کیفیت تشریح کرد. این دادهها ماهیت چندبعدی دارند و در مقالات و منابع علمی مختلف المانهای متفاوتی برای کیفیت اطلاعات مکانی مردمگستر تعریف میشود، ولی پنج المان مهم که تقریباً در تمامی مراجع علمی مورد تأیید قرار دارند عبارتاند از: صحت مکانی، صحت توصیفی، صحت زمانی، ناسازگاری منطقی و تمامیت. حال این کیفیت میتواند با مقایسه دادههای مرجع با اطلاعات مکانی مردمگستر بهصورت دستی،یا بهصورت خودکار به دست بیاید.
ازآنجاییکه تولیدکنندگان اين اطلاعات عموماً مردم عادي بوده و هیچ تخصصي در زمینه اطلاعات مکاني، جغرافیا، و يا ساير علوم مرتبط با آن ندارند، چنین مشکلي طبیعي به نظر ميرسد. ضمناً عدم وجود مکانیزمهاي کنترل کیفیت و يا کارايي پايین آنها در صورت وجود، در اغلب پروژههای مردمگستر اين مشکل را تشديد میکند . بنابراين تاکنون تحقیقات مختلفي به بررسي کیفیت دادههای مردمگستر پرداخته و سعي در برآورد کیفیت اين اطلاعات داشتهاند. اين تحقیقات را در دو گروه میتوان دستهبندی کرد: بررسي کیفیت اطلاعات مردمگستر از طريق مقايسه آنها با اطلاعات مرجع و بررسي ماهیت خود دادههای مردمگستر و ارزيابي پارامترهاي کیفیت آنها . در تحقیقات دسته اول؛ معمولاً چند المان براي کیفیت در نظر گرفته میشود و با مقايسه دادههای مرجع و مردمگستر، يک برآورد کمي از اين المانها محاسبه میگردد .
ارزیابی و صحت سنجی
پس از جمعآوری اطلاعات اکنون نیاز است که دادهها با توجه به چندوجهی بودن اطلاعات مکانی مردمگستر، از جنبههای مختلف کیفیتسنجی شوند. ولی مؤلفههای کیفیت اطلاعات مکانی مردمگستر با توجه به نوع پروژه مورداستفاده و بررسی قرار میگیرند. همانطور که در قسمت قبلی نیز توضیح داده شد، مطرحترین فاکتورهایی که براي اين منظور در نظر گرفته میشوند عبارتاند از : تمامیت، سازگاري منطقي، دقت مکاني، دقت زماني و دقت توصیفي. اما عليرغم اهمیت فراوان، بهدقت توصیفي کمتر از ساير المانها پرداختهشده است.
ازآنجاییکه ماهیت اغلب اطلاعات توصیفي بهصورت غیر عددي است، میتوان اذعان داشت که ارزيابي کیفیت آن دشوارتر از ساير المانهای کیفیت است. دقت اطلاعات توصیفي يکي از فاکتورهاي مهم در استفاده بهینه از دادههای مردمگستر است. براي مثال آنالیزهايي مثل مسیريابي يا حتي آنالیزهاي سادهای همچون انتخاب يا تجمیع عوارض برمبناي فیلد اطلاعات توصیفي بهطور مستقیم با دقت اطلاعات توصیفي در ارتباط هستند.
بهطورکلی با توجه به اهداف و کاربردهایی که هر پروژه در بهکارگیری دادههای مردمگستر دارد، برای بررسی کیفیت اطلاعات مکانی مردمگستر میتوان به فراخور شرایط از فاکتورهای صحت مکانی، صحت توصیفی و تمامیت استفاده نمود.
صحت مکانی و هندسی
صحت مکانی را میتوان اختلاف مقادیر مختصات بهدستآمده با دادههای مرجع معتبر تعریف کرد. صحت مکانی اطلاعات مکانی مردمگستر میتواند از مقایسه دادههای بهدستآمده از داوطلبان با دادههای مرجع به دست بیاید یا اینکه مستقیماً از طریق توابع یا ابزاری توسط خود دادهها یا فرادادهها به دست بیاید. بهطورکلی در اکثر روشهای ارزیابی دقت هندسی دادههای مکانی مردمگستر، دادههای تولیدشده را با مجموعه دادههای مرجع و معتبر مقایسه کرده و سپس دقت آنها را برآورد میکنند.
سایر معیارهای بررسی دقت دادههای مردمگستر را میتوان به شرح زیر در نظر گرفت:
- تکرار گزارش این دادهها توسط کاربران مختلف و نتیجهگیری بر صحت دادهها، هر چه دادهها توسط کاربران مختلف تکرار ثبت بالاتری داشته باشند، درصد اطمینان صحت آنها بالاتر میرود.
- دوری و نزدیکی به مراکز مهم شهری؛ مراکز مهم شهری با ضریب اطمینان بالاتری توسط کاربران ویرایش شده و مکانهای دورافتادهتر و کماهمیتتر دارای ریسک کمدقتی میباشند.
- کارنامه کاری کاربران داوطلب و کیفیت دادههایی که تولید کردهاند؛ دادههایی که توسط کاربرانی که در تاریخچه فعالیتهای خود دادههای با دقتی را تولید کرده است از ارزش وزنی بالاتری در ارزیابی صحت برخوردارند.
- …
یک روش کاربردی و ابتکاری دیگر در ارزیابی دقت هندسی دادههای مردمگستر این است که دادهها را با دادههای مرجع مثل دادههای سازمان نقشهبرداری مقايسه میکنند. سپس با ارزيابي دادههای مردمگستر داراي متناظر، تعدادي پارامتر براي کیفیت مکاني معرفي میکنند. اين پارامترها در چهار دسته تقسیمبندی میشوند که عبارتاند از پارامترهاي اصلی، مکاني، زماني و کاربر. پسازآن با استفاده از یک روش ترکیبی بر مبنای هوش مصنوعی، رابطه میان هر یک از این پارامترها با شاخص دقت مکانی مشخص میگردد.
درنهایت با استفاده از این روابط، دقت مکاني دادههای مردمگستر بدون متناظر محاسبهشده و از نتايج حاصل براي افزايش سازگاري منطقي دادههای مردمگستر استفاده میشود.
صحت توصيفی
همانطور که پیشتر بیان شد، در ارزیابی صحت و دقت دادههای مکانی مردمگستر، علاوه بر بررسی دقت هندسی، باید دقت عوارض توصیفی را نیز در نظر گرفت و راهکاری برای آن اندیشید. صحت توصيفی در حوزه دانش مکانی، انواع مختلف اقلام توصیفی را در چهار دسته مختلف تقسیمبندی میکنند: اسمی ، ترتیبی ، نسبی و بازهای. برای ارزیابی دقت اطلاعات توصیفی، بر اساس نوع یک قلم توصیفی (یا ویژگی) و اینکه در کدامیک از دستههای بالا قرار میگیرد، روشهای مختلفی وجود دارد.
دادههای نسبی و بازهای ازآنجاییکه ماهیت عددی دارند و بهصورت یک کمیت بیان میشوند، بهراحتی قابلمقایسه با یکدیگرند و بنابراین میتوان دقت آنها را بهسادگی و با مقایسه به دست آورد. دادههای ترتیبی نیز معمولاً دامنه مقادیر قابلقبول کوچکی دارند. مثلاً نوع کاربری یک عارضه معمولاً یک مقدار از مجموعهای از مقادیر از پیش تعیینشده میگیرد. بنابراین ارزیابی کیفیت این نوع از اطلاعات توصیفی نیز نسبتاً ساده است. اما در مورد دادههای اسمی روشهای ارزیابی دقت سختتر و پیچیدهترند. چراکه اینگونه از دادههای بهصورت یک نام یا درواقع یکرشته از حروف بیان میشوند.
برای مقایسه دو رشته، توابع و روشهای مختلفی وجود دارد همچون روش متافون[1] که از قواعد تلفظ زبان انگلیسی برای مقایسه استفاده میکند. و یا الگوریتم لونشتین[2] که فاصله بین دو رشته را بر اساس تعداد ویرایشهای لازم برای تبدیل یکرشته به رشته دیگر اندازهگیری میکند (به همین دلیل نام دیگر آن فاصلهی ویرایش است) و در بسیاری از تحقیقات در مورد کیفیت دادههای مکانی بهکاررفته است.
یکی از کاربردیترین روشهای بررسی صحت توصیفی، مقايسه و تناطريابي بین دو مجموعه داده است چراکه براي محاسبه میزان اختلاف میبایست ابتدا عوارض متناظر را پیدا کرد. پس از يافتن عوارض متناظر، میبایست براي هر عارضه در مجموعه مردمگستر، دقت توصیفي را محاسبه نمود. بنابراین روش پرکاربردترین، روش مشابهت متن است که میزان مشابهت دو رشته به یکدیگر را بر اساس طول رشته مشخص میکند که قابلیت تطابق بالاتری نسبت به زبانهای مختلف دارد. در برنامههایی استفادهکننده VGI که اسامی عوارض بهصورت فارسی در آنها وارد میشود، بهتر است که از روش مشابهت متن برای محاسبه صحت توصیفی استفاده شود چراکه درروش مشابهت متن از نسبت تعداد حروف مشابه دو کلمه به تعداد حروف کلمه با طول رشته بیشتر محاسبه میشود.
تماميت
تمامیت را میتوان توان اطلاعات مکانی مردمگستر در پوشش اطلاعات نقشه مرجع تعریف کرد. نوع محاسبه تمامیت بسته به نوع عارضه متفاوت است. برای محاسبه تمامیت عوارض نقطهای از نسبت تعداد عوارض نقطهای به تعداد عوارض نقشه مرجع استفاده میشود. برای محاسبه تمامیت دادههای خطی و سطحی، میبایست مجموع طول عوارضی که دارای متناظر هستند را بر مجموع طول کل عوارض تقسیم کرد و نتیجه را بهصورت درصدی از کل طول عوارض محاسبه کرد. برای محاسبه تمامیت دادههای مردمگستر، میبایست بر اساس رابطه 1 مجموع طول دادههای مرجع دارای متناظر را بر مجموع طول کل این عوارض تقسیم کرد. بنابراین خواهیم داشت:
یک نمونه عملی و پیادهسازی شده ارزیابی و صحت سنجی اطلاعات VGI
همانطور که در بخش عملی پیادهسازی شده VGI، آورده شد، نمونهای بهصورت پروژه پایلوت در سازمان نقشهبرداری کشور و در بستر ژئوپورتال ملی طراحی و اجرا شد که راهکار ارزیابی و صحت سنجی اطلاعات افزودهشده توسط کاربران داوطلب بهصورت دستی و توسط مسئولین سامانه صورت گرفته که در ادامه به جزئیات بیشتری از این روش پرداخته میشود.
نحوه کار کاربرانی که مجوز تغییر و ویرایش اطلاعات توصیفی و هندسی نقشه را در ژئوپورتال سازمان نقشهبرداری با بهکارگیری فنآوری VGI دارند، به این صورت است که با ورود به پنل کاربری در ژئوپورتال، به فضای کاری خود با استفاده از نام کاربری تخصیص دادهشده وارد میشوند و با بهکارگیری فنآوری VGI قادر به تولید اطلاعات و یا ویرایش آنها خواهند بود.
تائید ویرایش عوارض توسط کاربر مسئول
چگونگی نحوه تائید عوارض توسط کاربر مسئول به ترتیب ذیل آورده شده است:
در صفحه اصلی پورتال سازمان نقشهبرداری کشور، کاربر مسئول بر روی دکمه “تائید” کلیک میکند
نمایش دکمه “تائید” در صفحه اصلی پورتال سازمان نقشهبرداری
پس از کلیک بر روی دکمه”تائید” در صفحه اصلی پورتال مکانی سازمان نقشهبرداری، صفحه نقشه نمایش داده خواهد شد.
نمایش صفحه نقشه
در این صفحه در منوی سمت راست جستجو با استفاده از گزینه “جستجوی عوارض تغییریافته”، عوارض تغییریافته بر اساس محدوده زمانی موردنظر قابلرؤیت خواهد بود.
جستجوی عوارض تغییریافته با استفاده از گزینه محدوده زمانی
کاربر مسئول با کلیک بر روی عوارض تائید نشده ، نسخه ویرایش شده توسط کاربران را با اعدادی مشاهده خواهد کرد که نشاندهنده تعداد نسخههای ویرایش شده میباشد. بهعنوانمثال عارضه مشاهدهشده دارای سه نسخه میباشد که نسخه اول عارضه اصلی و دو نسخه ، نسخههای ویرایش شده میباشند.
نمایش یک نسخه ویرایش توسط کاربر
کاربر در این صفحه میتواند تا چهار نسخه را مشاهده نماید و با مشاهده تفاوتهای آنها عارضه صحیح را انتخاب نماید. در این حالت، جدولی برای کاربر نمایش داده میشود که باکس اطلاعات توصیفی آن خالی بوده و آماده ثبت اطلاعات جدید بوده و با گزینه افزودن هندسه، میتوان ترسیم در محیط نقشه را بهمنظور افزودن عارضه جدید انجام داد و درنهایت با گزینه اعمال تغییرات، عارضه جدید را به پایگاه داده اضافه میکنیم.
نمایش نسخههای ویرایش شده یک عارضه
برای تائید عارضه، مسئول باید بر روی “تائید عارضه ” نسخه مورد تائید خود کلیک کرده و همانطور که در شکل 5 قابلمشاهده است، پسازاین مرحله پیام “اطلاعات بهروز شد” در صفحه نمایش داده میشود. لازم به ذکر است که کاربر مسئول پس از مشاهده نسخههای مختلف قادر است خود نیز اطلاعات توصیفی را ویرایش نماید. همانطور که ملاحظه میگردد پس از بهروزرسانی تغییر توسط مسئول، کاربر میتواند آخرین نسخه از تغییر اخیر را ملاحظه نماید. درنهایت نیز پس کلیک بر روی دکمه “تائید عارضه” و” بهروزرسانی لایه” توسط کاربر مسئول و همچنین تائید ورود اطلاعات، عارضه بهصورت حقیقی بر روی نقشه اضافهشده و قابلمشاهده خواهد بود.
نمایش تغییر اخیر و قابلرؤیت شدن آن برای کاربر
قابلرؤیت شدن عارضه اضافهشده برای کاربر پس از تائید آن
جستجوی اطلاعات تغییریافته توسط کاربران و مسئول سیستم:
در این سیستم کاربران میتوانند اطلاعاتی که در این سیستم تغییر دادهاند جستجو نمایند. جهت تسهیل در جستجوی عوارض تغییریافته دو روش در پورتال مکانی تعبیهشده است، که در ذیل بهتفصیل توضیح داده خواهد شد.
روش اول جستجوی اطلاعات بر اساس محدوده نمایش نقشه:
کاربر میتواند بر اساس محدوده نمایش دادهشده بر روی نقشه عوارضی که خود تغییر داده است را مشاهده نماید.
مشاهده عوارض تغییریافته بر اساس محدوده نقشه
علاوه بر این کاربر میتواند بر اساس تقسیمات کشوری محدوده مکانی نقشه را انتخاب نماید. در این روش کاربر میتواند محدوده مکانی موردنظر خود را با تعیین استان، شهرستان و شهر تعیین کند.
روش دوم جستجو بر اساس بازه زمانی تغییرات:
در این سامانه زمان تغییرات برای هر عارضه توسط سیستم ثبت میگردد. لذا کاربر میتواند عوارضی را که تغییر داده است بر اساس بازه زمانی نیز جستجو نماید. لذا برای انجام این کار کاربر میتواند در منوی فیلترهای جستجو گزینه بازه زمانی را انتخاب نموده و بر اساس تقویم مشاهدهشده محدوده زمانی موردنظر خود را برای جستجو انتخاب نماید.
انتخاب بازه زمانی برای جستجوی عوارض تغییریافته
روند فرایندهای شرح دادهشده فوق، تماماً در دیاگرام زیر با توضیح مختصری از عملکرد معماری این سامانه هم در پایگاه داده و هم ژئوپورتال توضیح دادهشده است.
لازم به ذکر است که نرمافزارهای کلیدی مورداستفاده در ژئوپورتال سازمان نقشهبرداری کشور، Geonode، GeoServer و Geonetwork به ترتیب برای اجرای بستر ژئوپورتال، Mapserver و کاتالوگ سرویس میباشند که توضیحات مختصری از آنها در ادامه آورده میشود.
GeoNode یک سیستم مدیریت اطلاعات مکانی و یک نرمافزار برای مدیریت و انتشار دادههای مکانی میباشد. ابزارهای مدیریت داده تعبیهشده در GeoNode اجازه ترکیب دادهها، فرادادهها و نمایش نقشه را فراهم مینماید. هر مجموعه داده را میتوان بهصورت عمومی در سیستم به اشتراک گذاشته یا اجازه دسترسی محدود به کاربران خاص داد. این سیستم از اجزای مختلفی تشکیلشده است که تمام آنها بر اساس مفهوم متنباز میباشند.
GeoServer: یک سرور نقشهای متنباز برای انتشار دادههای مکانی است. این نرمافزار امکان ایجاد برخی استانداردهای OGC شامل WMS[3]، WMTS[4]، [5]WFS، [6]WCS، [7]WPS را فراهم میسازد. این سرور قابلیت ارتباط با پایگاه دادههای مکانی رایج مانند PostGIS، Oracleو SQL Server برای هر دو نوع دادههای رستر و برداری را دارد.
(WCS): استانداردی است که یک واسط را بهمنظور دسترسی به دادههای رستری (coverage data) تعریف میکند. برخلاف WMS که دادههای مکانی را بهصورت نقشههای استاتیک به تصویر میکشد؛ این استاندارد، اصل داده را (به جای صرفاً تصویر آنها) در اختیار قرار میدهد که این امر امکان تحلیل بر روی آنها را میسر میسازد.
(WMS): استانداردی است که یک واسط را بهمنظور درخواست و ارائه تصاویر زمین مرجع شده از نقشهها در محیط وب، در اختیار قرار میدهد. جواب درخواست در قالب فرمتهایی مانند JPEG، PNG و … میباشد.
(WMTS): بارگذاریWMS دادههایی که دارای حجم بالایی هستند، زمانبر میباشد. این استاندارد چگونگی ارائه این دادهها را در قالب اشکال منظم و کوچکی -تایل- در مقیاسهای مختلف و بهصورت از پیش آمادهشده بیان میکند.
(WFS): استانداردی است که یک واسط را بهمنظور دریافت و بهنگام سازی دادههای مکانی در قالب GML از منابع مختلف فراهم میکند. عملیاتی از قبیل ایجاد، حذف، بهنگام سازی، قفلکردن و انجام پرسش بر مبنای قیود مکانی و غیر مکانی بر روی عوارض مکانی در این استاندارد تعریفشده است.
(WPS): این استاندارد واسطی برای تسهیل انتشار، یافتن و تلفیق پردازشهای مکانی در محیط وب است. بهبیاندیگر، این استاندارد تعریف میکند که چگونه یک کاربر[8] میتواند درخواست اجرای یک تابع تحلیلی مکانی را به سرور ارسال و خروجی(های) آن را دریافت نماید.
Geonetwork نرمافزار کاتالوگ سرویس[9]: نرمافزاری جهت پیادهسازی کاتالوگ سرور مبتنی بر استانداردهای OGCاز ملزومات اصلی میباشد که با استفاده از زبانهای برنامهنویسی سمت سرور نوشتهشده است. نرمافزار کاتالوگ سرویس امکان انتشار و جستجوی فراداده را فراهم میسازد. همچنین فرادادهی مبتنی بر استانداردهای فراداده را نیز ایجاد میکند. استاندارد کلیدی جهت انتشار فراداده در بستر این نرمافزار CSW[10] میباشد.
(CSW): استانداردی در قالب XML برای در اختیار قرار دادن فهرستی از دادههای مکانی موجود در اینترنت است. درواقع، این استاندارد، زبان مشترکی را برای یافتن و انجام پرسش روی فرادادهها تعریف میکند.
[1] Metaphone
[2] Levenshtein
[3] Web Map Service
[4] Web Map Tile Service
[5] Web Feature Service
[6] Web Coverage Service
[7] Web Processing Service
[8] Client
[9] Catalouge Service
[10] Catalogue Service for the Web