بازبینی داده OSM
بازبینی داده OSM
این بخش روندهای بررسی کیفیت داده، بویژه در زمینه یک پروژه نقشهکشی مستقیم در محیط OSM، در کشورهای مختلف و پروژه شهرهای باز (http://opencitiesproject.com) در مناطقی همچون بنگلادش، سریلانکا و نپال اجرا شده است، را پوشش میدهد. روشهای آورده شده در این بخش، ممکن است در زمینه های دیگر همانند زمانی که بررسی کیفیت داده مورد نظر کاربر باشد، نیز کاربردی است.
ما زمانی که در تلاشیم تا با ترسیم نقشه مجموعه کاملی از ویژگیها و عوارض یک منطقه مشخص را بکشیم، باید راههایی نیز برای بررسی اشتباهات و روشهای ارزیابی صحت کار در اختیار داشته باشیم. در این آموزش ما از طریق چندین روش بررسی داده، مراحل کار و دلیل استفاده از این روشها را توضیح خواهیم داد. بطور کلی، یک پروژه نقشهکشی زمانی به خوبی مدیریت خواهد شد که هر یک از این سه فرآیند زیر را هم برای ارزیابی و اصلاح دادهها و هم برای گزارشدهی داشته باشد.
- بررسیهای روزانه
- بررسی مجدد
- پرسوجوهای SQL
این روشهای بررسی با گسترش و رشد مدل داده و افزایش تعداد ویژگیهای جمعآوری شده اهمیت بیشتری پیدا میکنند. به عنوان مثال، برای ارزیابی مدل دادهای که فقط شامل نقاط مورد علاقه (POIs) باشد، زمان و تلاش زیادی صرف نمیشود و این کار سادگی خود را دارد:
در این مورد سوالاتی که باید بپرسید عبارتند از:
- آیا POI همه مکانها وارد نقشه شدهاند؟
- آیا POIای که ویژگی نام نداشته باشد، داریم؟
- آیا POIای که ویژگی نوع نداشته باشد، داریم؟
- آیا POIای که ویژگی شماره تلفن نداشته باشد، داریم؟
- آیا مقدار فیلد نام درست نوشته شده است؟
- آیا شماره تلفن درج شده، منطقی است؟
معمولاً یک مدل داده بسیار پیچیدهتر از حالتهای فوق است، مانند مورد نقشهکشی محدوده ساختمانها. برای نمونه، یک مدل دادهای که شامل این موارد است را در نظر بگیرید:
اکنون شما ممکن است نقشه هزاران ساختمان را که دارای ویژگیهای فراوانی هستند و تجزیه و تحلیل آنها بسیار حیاتی میشود را در نقشه بکشید. در این آموزش ما از ساختمان به عنوان مثال استفاده خواهیم کرد، اگر چه از همین روشها برای بررسی انواع دیگر عوارض نیز میتوان استفاده کرد.
بررسیهای روزانه
سریعترین روش برای بررسی دادهها، مرور و تأیید آنها به طور منظم است. این کار را میتوان بصورت روزانه یا حداکثر هفتگی انجام داد. برای سرپرست یک تیم نقشهکشی، این یک کار مهم است زیرا پیدا کردن اشتباهات و ویرایشهای بد در همان ابتدا بدان معنی است که میتوان آنها را تصحیح کرد و اپراتورهای آماتور با این روش یاد میگیرند که درست کار کنند.
در اینجا ما به برخی از روشهای بررسی داده به سادگی با استفاده از JOSM نگاه خواهیم کرد. برخی از سوالاتی که ما در مورد داده می پرسیم:
- آیا خطای توپولوژی (مانند ساختمانهای روی هم یا ارتباطات[1] نادرست) وجود دارد؟ آیا خطای برچسبگذاری (برچسبهای اشتباه تایپ شده، ترکیب کلید-ارزش اشتباه) وجود دارد؟
- آیا با توجه به مدل داده، دادهها کامل هستند؟
بیایید ببینیم چگونه میتوانیم پاسخ این سوالات را در JOSM پیدا کنیم. فرض میکنیم که ما کار دیگران را بررسی میکنیم، اما روندهای مشابه هنگام تجزیه و تحلیل کار خودمان نیز به خوبی انجام میشود (و باید آسانتر باشد).
ما از یک پرونده نمونه از پروژه نقشههای باز شهری داکا استفاده خواهیم کرد. برای اینکه با ما همراه باشید، فایل را از مسیر زیر دانلود کنید
dhaka_validation_example ” .osm”
سعی نکنید تغییرات خود را در OpenStreetMap ذخیره کنید. این نمونه کار فقط برای تمرین بیشتر است.
صحتسنجی دادهها
گام اول برای چک کردن دادهها این است که ابزار صحتسنجی در JOSM را اجرا کنید، که به طور خودکار دادههای باز شده را برای اشتباهات احتمالی بررسی میکند. این ابزار معمولا برای یافتن خطاهای توپولوژی مناسب است اما ممکن است برای پیدا کردن برچسبهای نادرست خیلی مفید نباشد.
- ابزار را با کلیک روی دکمه ابزار صحتسنجی در سمت چپ JOSM فعال کنید. (اگر پنل اعتباربخشی باز باشد، این کار لازم نیست)
- در ابتدا، با کلیک کردن در یک نقطه خالی از نقشه مطمئن شوید که هیچ شی ای در حالت انتخاب نباشد. اگر هنگام اجرای ابزار صحتسنجی شی انتخاب شده باشد، تبعا تنها همان ویژگی انتخاب شده مورد بررسی قرار میگیرند. (گاهی اوقات ممکن است بخواهید فقط شی خاصی را بررسی کنید، اما در حال حاضر ما کل فایل را بررسی میکنیم)
- بر روی دکمه “صحتسنجی” (Validation) در پنل کلیک کنید.
- در پنجره باز شده، لیستی از تمام هشدارها را می بینید:
- در این قسمتف یک لایه جدید نیز ظاهر میشود که نشان میدهد محل خطاها کجا هستند. فعلاً برای راحتی میتوانید این لایه را مخفی کنید.
بیایید به چند هشدار نگاه کنیم. میببینید که چهار هشدار در مورد “ساختمانهای متقاطع” (Crossing buildings) وجود دارد. این هشدار به این معنی است که ساختمانها در جایی همپوشانی دارند و روی هم قرار گرفته اند، که به لحاظ منطقی این یک مورد از خطاهای ترسیمی میباشد. اولین مورد در این لیست را انتخاب کنید، روی آن کلیک راست کنید و روی “زوم به مشکل” کلیک کنید.
همچنین، بر روی دکمه “انتخاب” در پایین پنجره صحتسنجی کلیک کنید تا خطوط دارای مشکل را انتخاب کنید. بر روی صفحه نقشه، این دو خط که مشکل دارند، نشان داده میشود:
- این خطا از جمله مواردی است که ما هیچ وقت بدون وجود ابزار صحتسنجی آنرا پیدا نمیکردیم. اگر خیلی زوم کنید میبینید که بین ساختمانها همپوشانی مختصری وجود دارد که از نوع خطای توپولوژیکی است، زیرا ساختمانها معمولاً با یکدیگر همپوشانی ندارند. برای حل این مشکل، باید گره وسطی جابجا شود. زیرا اگر ساختمانها در واقع به هم چسبیده هستند، احتمالاً آنها در گره میانی به هم متصل هستند.
- هنگامی که این مورد را تصحیح کنید، میتوان دوباره ابزار صحتسنجی را اجرا کنیم و مشاهده میکنید که اینبار این هشدار از لیست حذف خواهد شد.
این روش خودکار بررسی دادهها، یک راه موثر برای اصلاح خطاهای توپولوژی، به ویژه در مواردی است که فرد ممکن است با نگاههای عادی به صفحه نقشه، متوجه وجود آنها نشود. در لیست هشدارهای صحتسنجی، میتوانید ببینید که هشدار دیگری مانند “ساختمان درون ساختمان” (Building inside building) نیز نتیجه یک اشتباه مشابه است.
هشدارهای دیگری نیز، مانند “آبراه/جاده متقاطع” (Crossing waterway/highway)، لزوماً اشتباه نیستند. این نشان میدهد که ابزار صحتسنجی برای پیدا کردن اشتباهات احتمالی خوب است، اما نیاز به کسی دارد که ببیند آیا خطای موجود در لیست مهم است یا خیر.
بیایید به هشدار تحت عنوان “راههای دارای نام مشابه” (Similarly named ways) نگاهی بیندازیم، که از انواع خطاهای توپولوژیک نیست. روی گزینه “انتخاب” کلیک کنید تا دو جاده مورد مناقشه را انتخاب کنید.
آیا اکنون می توانید بگویید که اشتباه چیست؟ در اینجا دو بخش مختلف جادهای را داریم که در واقع یک جاده هستند، با این حال آنها کمی با هم متفاوت به نظر میرسند – در یکی از راهها لغت “جاده” استفاده شده اما در دیگری خیر. منطقی است که هر دوی این عوارض باید یک نام داشته باشند، و در این مورد کلمه “جاده” باید به هر دو داده تخصیص داده شود.
استفاده از جستجوی JOSM
جستجو در JOSM یک روش قدرتمند برای بررسی دادههاست. جستجو شما را قادر میسازد تا کلمات جستجو که پرسوجو هم خوانده میشوند را بکار ببرید تا تنها ویژگیهای مورد نظرتان انتخاب شوند.
- برای دسترسی به جستجو، به مسیر Edit->Search بروید یا CTRL+F را از صفحه کلید فشار دهید.
- شما میتوانید انواع بسیار زیادی از فرایندهای پرسوجو را در اینجا انجام دهید و میتوانید جزئیات و مثالهای گوناگون را در خود کادر جستجو و با کلیک بر روی دکمه “راهنما” مشاهده کنید.
- اکنون سعی کنید همه ساختمانها را انتخاب کنید. تقریباً هر ساختمان، تگ building=yes و چند تا هم building=construction را دارند. این به این معنی است که میتوانیم یک پرسوجو به شکل زیر ایجاد کنیم:
building = yes OR building=construction
- نتیجه این پرسش گیری، باید تمام ساختمانها را انتخاب کند، اما ممکن است که یک نفر یک تگ اشتباه را به یک ساختمان اعمال کرده باشد، در این صورت بهتر است از یک کاراکتر عمومی استفاده کنیم که تمام ویژگیهایی که کلید ساختمان را دارند را انتخاب میکند.
- تمام ساختمانها انتخاب خواهند شد.
نتیجه این پرسش گیری عالی است، اما این نتیجه چه کمکی به ما در بررسی اطلاعات میکند؟ در این حالت باید اذعان کنیم، حالا که ما همه انواع منفرد یک ویژگی را انتخاب کردهایم، میتوانیم برچسبهای نادرست این عوارض را جستجو کنیم.
- به پنجره Propertiesها نگاهی بیندازید – آنچه که میبینیم ، در این حالت، همه برچسبهای همه اشیا انتخاب شده است. همه آنها کلیدهای مشابهی دارند، اما به دلیل اینکه هر یک از ویژگیها دارای مقادیر مختلف هستند، به نام <different> علامتگذاری شدهاند.
- در این مرحله، روی تگ building:use و سپس “ویرایش” کلیک کنید.
- در این قسمت از عملیات مراقب باشید، زیراشما نمیخواهید مقدار را ویرایش کرده و روی OK کلیک کنید، زیرا با اینکار تگ همه ساختمانها را تغییر خواهید داد و این اتفاق باعث بروز مشکل میشود.
- در این بخش، بر روی کادر کشویی کنار Value کلیک کنید.
- توجه داشته باشید که تمام آیتمهای پررنگ دارای یک عدد در کنار آنها در پرانتز هستند. این عدد تعداد ویژگیهای انتخاب شده که دارای آن مقدار برچسب هستند را نشان میدهد.
میتوانیم این را با برچسبهای OpenStreetMap مقایسه کنیم که در مدل داده ما نقشهکشی شدهاند و به دنبال برچسب اشتباه بگردیم. به عنوان مثال، این برچسب نشان دهنده کاربری ساختمان است. در ابتدا در پروژههای شهر باز داکا (که این دادهها از آنجا آمده است) در مورد اینکه آیا هر ساختمان چندمنظوره باید به صورت building:use=multipurpose یا building:use=mixed برچسبگذاری شود اختلاف نظر وجود داشت. از آنجا که برچسب اول در کشورهای دیگر مورد استفاده قرار گرفته بود، انتخاب شد. با این حال، ما در اینجا میبینیم که یکی از ساختمانها به عنوان mixed برچسبگذاری شده است. که باید این مورد را اصلاح کنیم. ما نمیتوانیم ویژگیهایی را که دارای تگ building:use=mixed باشند را تغییر دهیم، زیرا ما در این مرحله، صدها ویژگی را انتخاب کردهایم. بنابراین، برای تصحیح اشتباه، ابتدا باید آن را پیدا کنیم. ولی، چگونه این کار انجام شود؟ پاسخ اینست؛ با ابزار جستجو.
- برای خروج از این کادر محاورهای، گزینه “لغو” را کلیک کنید . به یاد داشته باشید که کلیک روی OK میتواند خطرناک باشد.
- دوباره جستجو را باز کنید و پرسوجوی زیر را وارد کنید : “building:use”=mixed
- توجه داشته باشید که علامت نقل قول لازم است، زیرا نقطه ویرگول (:) دارای معنای جستجویی نیز هست. این جستجو باعث میشود که تنها یک ساختمان که دارای این برچسب باشد انتخاب شود. اکنون میتوان مقدار آنرا به multipurpose تصحیح کرد.
بازرسی مجدد
هنگام مدیریت یک پروژه مانند بررسی کامل و دقیق ساختمانها، باید یک الگوی اضافه برای کنترل کیفیت، به جهت بهبود کار و نیز گزارش دقت در پایان پروژه وجود داشته باشد.
اگر تیمهای نقشهکشی زیادی برای بررسی یک منطقه با هم همکاری میکنند، ممکن است که ادغام کار یک یا چند تیم، نتیجه رضایتبخش و قابل قبولی نداشته باشد. حتی کسانی که کارهای کارآمد و دقیق انجام میدهند نیز ممکن است اشتباه کنند. تصور کنید تیمهایی که در هر روز تعداد 100 ساختمان را ترسیم میکنند – بعید است که درصد کمی از مشخصههایی که جمع آوری میکنند خالی از اشکال باشند.
بنابراين، پروژه خوب شامل فرآيند بازبینی مجدد بعضی از کارهای انجام شده، حل کردن اشتباهات، تعیین گروه نقشهکشی که کار رضایتبخش انجام داده و در آخر تخمین درصد اشتباهات جهت گزارش نهایی میباشد.
البته، بازبینی کلیه ساختمانهای منطقه هدف عقلانی به نظر نمیرسد، اما ۵ تا ۱۰ درصد از ساختمانها باید بررسی مجدد بشوند. مناطق مورد بررسی باید از بین مناطق مختلف انتخاب شود تا مقایسه مناسبی بین تیمها انجام شود. تیمهای بازرسی میتوانند بررسی مجدد کار یکدیگر را انجام دهند و یا در صورت امکان مدیران با تجربه تر میتوانند بررسیها را به عهده گیرند. امری طبیعی است که مدیران یک روز در هفته را جهت بررسی مجدد قسمتهایی از منطقه مورد نظر صرف کنند.
تصحیح اشتباهات
زمانی که اشتباهات پیدا شود چه باید کرد؟
اگر تعداد کمی اشتباه (کمتر از ۵٪ ساختمانها) وجود داشته باشد، مسئله باید به تیم اصلی نقشهکشی منتقل شود تا در جریان قرار گرفته و مجدداً اشتباهات مشابهی را تکرار نکنند. دادهها باید در OpenStreetMap تصحیح شود و نتایج بررسی مجدد باید ثبت شود.
اگر اشتباهات زیادی وجود داشته باشد، باید اقدامات بیشتری انجام شود. تیم بررسی باید به شیوهای مناسب آگاه شود و بسته به میزان داده نامناسب، در محدوده ای که آنها نقشهکشی کردهاند، ممکن است به طور کامل نیاز به بررسی مجدد باشد. میزان اشتباه بیشتر از ۱۰٪ اصلاً پذیرفتنی نیست.
گزارش دقت
هدف دوم از بازبینی این است که بتوانید پس از بسته شدن پروژه گزارشی از صحت دادهها تهیه کنید. استتفادهکنندگان از دادهها میخواهند معیارها و روشهای شما را برای ارزیابی کیفیت داده بدانند.
با گنجاندن این فرایند به عنوان بخشی از روش بررسیتان، شما میتوانید به طور شفاف توضیح دهید که چگونه کیفیت دادهها را ارزیابی کردهاید و اعداد واقعی که درصد احتمال خطا در دادهها را نشان میدهند، ارائه کنید.
[1] relation