آشنایی با فناوری پردازش تصویر OMR OCR ICR

ساختمان اسكنر

  • یك اسكنر تخت معمولی از قسمت های زیر تشكیل شده است:
    یك حسگر CCD یا Charge Coupled Device
    آیینه ها
    هد اسكن
    صفحه شیشه ای
    لامپ
    لنزها
    پوشش یا كاور
    موتورهای پله ای
    میله تثبیت كننده
    تسمه ها
    منبع تغذیه
    درگاه خروجی
    مدارهای كنترل

    اصلی ترین قسمت یك اسكنر، حسگر CCD است (درست همانند دوربینهای عكاسی دیجیتال و دوربینهای فیلم برداری ویدیویی).  همانند تمامی تكنولوژی های ثبت تصاویر دیجیال، CCD مهمترین بخش برای ثبت تصاویر در یك اسكنر است. ساختمان حسگرهای CCD به كار رفته در اسكنر ها شباهت زیادی با ساختمان این حسگر در دیگر ابزارهای ثبت تصاویر دیجیتال دارد. مهمترین تفاوت بین حسگرهای به کار رفته در اسکنر ها و سایر حسگرهای CCD شكل ظاهری آنها باز میگردد. بر خلاف حسگر های به كار رفته در انواع دوربینهای دیجیتال كه به صورت یك صفحه چهار گوش  مسطح هستند، در اسكنر ها ،CCD مانند یك مستطیل بسیار باریك و دراز است. در یك اسكنر تصویر پس از عبور از میان یك سری از آیینه ها، لنزها و فیلتر ها به CCD میرسد. هر چند ترتیب قرار گیری این تجهیزات تا حدود زیادی به مدل دستگاه بستگی دارد، اما در انواع مدلها تا حد زیادی شبیه هم است.
    مراحل اسكن كردن
    یک اسکنر برای اسکن کردن یک تصویر باید کارهای مختلفی را انجام دهد:
    تصویر یا متنی كه قصد اسكن كردن آن را دارید در روی صفحه شیشه ای قرار می گیرد و پوشش بالایی اسكنر بسته میشود.
    رنگ داخل پوششی كه در بسیاری از اسكنرها مود استفاده قرار می گیرد سفید است، در برخی از مدلها نیز از رنگ سیاه استفاده می شود.
    سطح داخلی پوشش یك زمینه یكنواخت را ایجاد می نماید كه نرم افزار اسكنر می تواند به عنوان وسیله ای برای تشخیص اندازه دقیق سند و یا تشخیص محل شروع از آن استفاده کند.
    تقریبا" تمامی اسكنر اجازه برداشته شدن روكش را به کاربر می دهند تا بتوان اشیاء بزرگ و حجیمی مانند یك صفحه از یك کتاب كلفت را نیز اسكن کرد.
     یك لامپ نیز برای روشن كردن سند مورد استفاده قرار می گیرد. در اسكنرهای جدید تر و پیشرفته تر از یك لامپ Cold Cathod Fluorescent Lamp یا به اختصار CCFL و یا لامپ زنون استفاده می شود. اما در اسكنرهای قدیمی تر معمولن" از لامپ فلورسنت (مهتابی) معمولی استفاده می کنند.
    تصویر منعكس شده از سند، توسط یك آیینه به آیینه دیگر منعكس می گردد. در برخی از انواع اسكنرها، تنها از دو آیینه استفاده می شود در حالی كه در برخی از انواع آنها ۳ آیینه نیز مورد استفاده قرار می گیرد. هر آیینه علاوه بر انعکاس تصویر اندكی خمیدگی نیز دارد تا تصویر را در یك سطح كوچكتر متمركز نماید. آخرین آیینه تصویر را بر روی یك لنز منعكس می کند، سپس این لنز تصویر را از میان یك فیلتر رنگی عبور داده و آن را بر روی حسگر CCD متمركز می گردد. ترتیب قرار گیری فیلتر ها و لنز ها در اسكنر های مختلف، متفاوت است.
    برخی از اسكنرها تصویر را در سه مرحله (Pass) اسكن می كنند. آنها در هر مرحله از یك فیلتر رنگ خاص (قرمز، سبز و یا آبی) بین لنز و CCD بهره می برند. پس از اتمام این سه مرحله، اطلاعات بدست آمده از هر مرحله با مراحل دیگر تركیب شده و یك تصویر كاملن رنگی را تشكیل میدهد. بیشتر اسكنرها از شیوه ای استفاده میكنند كه به آنها اجازه میدهد تا هر تصویر را در یك مرحله اسكن كنند. در این شیوه لنز تصوی را به یك نسخه كوچكتر از تصویر اصلی تبدیل می كند. این تصویر كوچكتر به سه تصویر یكسان تقسیم می شود. سپس هر قسمت از یك فیلتر رنگی سبز، آبی و یا قرمز عبور كرده و بر روی یك بخش جداگانه از حسگر CCD منعكس می گردند.
    در انتها CCD اطلاعات بدست آمده از هر قسمت را تركیب نموده و یك تصویر كاملن رنگی را ایجاد می کند.
    تكنولوژی دیگری كه معمولن در اسكنرهای ارزان قیمت مورد استفاده قرار می گیرد Contact Image Sensor یا به اختصار CIS نامیده می شود. در حسگر های CIS ، حسگر CCD، آیینه ها، فیلترها و لامپ با ردیفی از LED ها تعویض شده اند. مكانیزم حسگر مركب از ۳۰۰ تا ۶۰۰ حسگر حساس به نور است كه در طول ناحیه اسكن قرار گرفته اند. این حسگرها به سطح مسطح شیشه ای كه سند بر روی آن قرار می گیرد بسیار نزدیك هستند. هنگام اسكن تصاویر، نور LED ها با یكدیگر تركیب میشود تا یك نور سفید یكنواخت تولید گردد. سپس نور منعكس شده توسط حسگرها ثبت میگردد. اسكنرهایی كه از تكنولوژی CIS استفاده میكنند، بسیار كوچك، سبك و ارزان قیمت اند، اما نسبت به اسكنرهای CCD دارای وضوح كمتر و كیفیت تصویر پایین تری نیز هستند.

اسکنر اسناد

  • وظیفه اصلی اسکنر تبدیل اسناد کاغذی به سند الکترونیکی است که در رایانه قابل ذخیره سازی باشد.اسکنرها را می توان به صورت کلی در چند دسته گروه بندی نمود از جمله:
  • اسكنرهای تخت (Flat): كه اسكنرهای رو میزی نیز نامیده میشوند، عمومی ترین و متنوع ترین اسكنرها هستندكه در همه جا مورد استفاده قرار میگیرند. این اسکنر معمولا در ابعاد A4 , A3 برای اسکن اسناد به کار می رود. اسکن برگه ها توسط این دستگاه به صورت مجزا و تکی امکان پذیر است. سرعت آنها عموما پایین است .
  • اسکنر تخت
    اسكنرهای اسناد( Sheet-fed): بسیار شیبه اسكنرهای تخت هستند با این تفاوت كه می توانند دسته ای از كاغذ ها را به ترتیب اسكن كنند. این گونه اسكنرها، مخصوص اسكن اسناد در تعداد بالا هستند. اسکن کاغذهای یکسان در تیراژ بالا مانند اسکن پاسخ برگ داوطلبان یا فرم های نظرسنجی از کاربردهای اصلی این نوع اسکنر هستند.
  • اسکنر
  • اسكنرهای قابل حمل: دارای تكنولوژی مانند اسكنرهای تخت هستند با این تفاوت كه به جای یك موتور الكتریكی كوچك، مصرف كننده باید آنها را بر روی اسناد حركت دهد. این گونه اسكنرها معمولن" دارای كفیت بالایی نیستند اما به راحتی و سرعت می توان آنها را مورد استفاده قرار داد.
  • اسكنرهای استوانه ای: بیشتر در شركتهای بزرگ چاپ و نشر مورد استفاده قرار میگیرند و دارای كیفیت بسیار بالایی هستند. آنها از تكنولوژی به نام Photo Multiplier Tube یا به اختصار PMT استفاده می كنند. در این تكنولوژی، اسناد و تصاویری كه باید اسكن شوند، بر روی یك استوانه شیشه ای پیچیده میشوند. در مركز این سیلندر یك شعاع شكن وجود دارد كه نور منعكس شده را به سه قسمت مساوی تقسیم میكند. هر شعاع نور از یك فیلتر رنگی (سبز، قرمز و یا آبی) عبور كرده و در PMT به یك سیكنال الكتریكی تبدیل میشود.

انواع کشش سند در اسکنر

  • طریقه کشیده شدن، اسکن و خارج شدن سند در اسکنرهای اسناد 3 نوع می باشد
    1- سند از ابتدای ورود تا خروج در زاویه 150 تا 180 درجه حرکت می کند و عملا سند بصورت مستقیم وارد سیستم تصویر برداری و خارج می شود. این سیستم بالاترین تکنولوژی تصویر برداری برای اسکنر های سرعت پایین و متوسط بوده و در این سیستم می توان کارتهای شناسایی بانکی و پاکت را اسکن نمود اسکنر


    2-Semi-U-Shape: سند پس از وارد شدن و تهیه تصویر با زاویه 270 درجه خارج می شود. این نوع کشش برای اسکنرهای پرسرعت بوده و دارای تکنولوژی بالایی است، تعداد کشنده ها و غلطک های به کار رفته در این سیستم زیاد بوده سینی هایی که سند بر روی آن حرکت می کند همگی از جنس استیل هستند
    اسکنر

    3- سیستم U-Shape: کشش دوار سند توسط کشنده کاغذ کشیده شده، به دور درام چرخیده و در همان راستای وارد شده با زاویه 360 درجه خارج می شود. این نوع کشش پایین ترین تکنولوژی کشش و حمل سند بوده و بیشتر برای اسکنرهایی که سیستم تصویر برداری دارند استفاده می شود. میزان گیر کردن سند در این سیستم زیاد است و دسترسی به سند گیر کرده مشکل می باشد. سیستم U-Shape به لحاظ تکنولوژی پایین قیمت اسکنر را نیز ارزان تر می کند اسکنر

سیستم تشخیص اسناد چند تایی multi – feed Detection

  • وقتی دسته ای از اسناد و یا کاغذ را در سیستم تغذیه سند اسکنر یا چاپگر قرار می دهید، چند درصد ممکن است یا چند تایی کشیده شود و اغلب این مشکل را در چاپگر هامشاهده کرده اید. چاپگرها فاقد سیستم اعلام و یا اخطار چند تایی کشیده شدن کاغذ می باشند ولی این مشکل در اسکنرها به دلیل اهمیت سند حل شده و اکثر اسکنرهای اسناد دارای سیستم تشخیص چند تایی کشیده شدن اسناد توسط امواج فرا صوت می باشند.
    سیستم تشخیص اسناد چند تایی از تغییر فرکانس امواج فرا صوت( Ultrasonic )جهت تشخیص عبور یک یا چند سند استفاده می کند. این سیستم از یک فرستنده و گیرنده تشکیل شده و هنگام عبور سند، فرستنده امواج فرا صوت را به گیرنده ارسال می کند، چنانچه یک سند در حال عبور باشد فرکانس تغییر نخواهد کرد و گیرنده همان فرکانس را دریافت می کند، ولی چنانچه بیش از یک سند از سیستم تغذیه اتوماتیک اسناد عبور کند، فضای بسیار کم بین اسناد موجب شکسته شدن امواج فرا صوت از طریق فرستنده شده و فرکانس امواج دریافتی توسط گیرنده متفاوت خواهد بود. بنابراین گیرنده امواج فرا صوت، بر اساس تعاریف صورت گرفته توسط کاربر 3 فرمان زیر را به اسکنر می دهد. ادامه عملیات اسکن بدون هیچ گونه اخطار، ادامه عملیات اسکن و اعلام اخطار صوتی یا تصویری، توقف عملیات اسکن تا راه اندازی مجدد اسکنر و خارج کردن اسناد از اسکنر
  • تشخیص سند چندتایی در اسکنر

تنظیمات اسکنرها

  • بدون توجه به نوع اسکنر و تکنولوژی به کار رفته در آن لازم است که قبل از شروع عملیات اسکن چند مورد را تنظیم کنیم  با توجه به این که منوی تنظیمات در هر  نوع اسکنر با سایرین متفاوت است بنابراین موارد را به صورت عمومی توضیح می دهیم.این موارد عبارتند از:

    نوع اسکن (رنگی / سیاه و سفید)
    نوع اسکن باید به صورت رنگی باشد و تنظیمات رنگ ترجیحا روی 24 بیت رنگی باشد

    رزلوشن اسکن
    مناسب ترین رزلوشن برای اسکن پاسخ نامه های معمولی 150 دی پی آی است البته در حالت های خاص خصوصا قرائت حروف یا اعداد دست نویس معمولا از رزلوشن 300 دی پی آی استفاده می شود.

    سایز کاغذ یا ناحیه اسکن
    سایز کاغذ با توجه به ناحیه اسکن شما انتخاب می شود. اگر برگ شما اندازه استاندارد دارد ناحیه اسکن را نیز به همان اندازه انتخاب کنید. برای مثال اگر کاغذ شما a4 است ناحیه اسکن را نیز همین سایز بگیرید. البته اگر  ناحیه اسکن کمی کوچکتر است می توانید از آیتم auto select استفادده نمایید. در اکثر اسکنرها این آیتم وجود داشته و به صورت خودکار ناحیه مورد نظر را تشخیص می دهد.  همچنین می توان ناحیه اسکن را به صورت دستی به اسکنر معرفی نمود.

    یک رو یا دو رو بودن اسکن
    اکثر اسکنرهای اسناد قابلیت اسکن همزمان دو طرف برگه را دارند. با توجه به نیاز خود این گزینه را تنظیم نمایید.

    سیستم تشخیص اسناد چند تایی multi – feed Detection
    x برای جلوگیری از کشیدن چند برگ لازم است که این گزینه را فعال نمایید. این تکنولوژی باعث می شود که اگر دو یا چند برگ همزمان از اسکنر عبور کند اسکنر متوقف  می شود تا کاربر مشکل را رفع نماید.

OMR : Optical Mark Recognition

  • مجموعه تكنيك ها و راهكارها جهت استخراج ماركها از تصوير مي باشد. اين تكنيك عموماً در تصحيح فرم هاي سوالات چندگزينه اي به كارگرفته مي شود.
    OMR

OCR : Optical Character Recognition

  • مجموعه تكنيكها و راهكارها جهت استخراج متن فونت و دستنويس (به صورت جملات و يا كاراكترهاي ايزوله) از تصوير سند اسكن شده مي باشد.
    اين راهكارها به صورت هوشمند عمل مي كنند و پس از انجام عملياتهاي پيش پردازش، تصوير موجود را پردازش مي كنند و داده هاي متني آن را استخراج مي كنند.
    OCR

ICR‌ : Intelligent Character Recognition

  • اين تكنيك به عنوان زير مجموعه اي از تكنيك هاي OCRمحسوب مي شود كه در آن تمركز بر استخراج كاراكترهاي حرفي يا عددي منفرد (ايزوله) از نوع دستنويس و چاپي مي باشد.
    ICR

DPU : Document Processing and Understanding

  • مجموعه تكنيكها و راهكارها جهت شناسايي ساختار فرم كاغذي اسكن شده، اصلاح ساختار فرم، پردازش و استخراج داده ها از جمله متون چاپي، دستنويس، جداول و عكسها از تصوير فرم اسكن شده مي باشد. ماژول OCR يكي از اجزا ابزارهاي DPU مي باشد كه تنها بخش پردازش و استخراج داده هاي متني را برعهده دارد.

    DPU