| OCR و ICR فارسی |
|
|
سازمان ها، شرکت ها و موسسات اغلب اطلاعات خود را بر روی کاغذ نگهداری می کنند. نامه ها، قراردادها ، توافق نامه ها، فاکتورها، درخواست ها، گزارش ها همه حاوی اطلاعات مهم و با ارزشی برای سازمان هستند. گسترش نفوذ رایانه ها به دنیای تجاری و استفاده روزافزون و همه منظوره آنها، روسای سازمان ها را به فکر استفاده از رایانه برای پردازش و مدیریت این حجم عظیم اطلاعات انداخته است.
از دیدگاه عملی، ورود اطلاعات موجود در اسناد کاغذی به رایانه به 3 صورت امکان پذیر است؛
1. طراحی فرم های ورودی کامپیوتری و ورود اطلاعات به صورت دستی در این روش، یک اپراتور مسئول ورود همه یا بخشی از اطلاعات به رایانه است. تیم برنامه نویسی فرم های مخصوصی را برای ورود طراحی می کنند که شامل فیلدهایی برای هر آیتم داده ای است. اپراتور اطلاعات موجود در هر سند کاغذی را به صورت مجزا در فیلدها وارد می کند. از مزایای این روش، مجزا بودن فیلدهای اطلاعاتی است که قابلیت پردازش، مدیریت و گزارش گیری بر روی آنها را بالا می برد. معایب معمول این روش، سرعت پایین ورود اطلاعات، وابستگی به اپراتور آموزش دیده و ماهر، از بین رفتن طبقه بندی اطلاعات محرمانه و عادی برای اپراتور وارد کننده و هزینه های پرسنلی آن است. 2. تهیه تصاویر اسناد کاغذی و تهیه آرشیو الکترونیکی از آنها معمولا در این روش ، تصویر اسناد کاغذی توسط اسکنر تهیه می شود و تیم برنامه نویسی یک نرم افزار آرشیو الکترونیکی برای نگهداری، مدیریت و استفاده از این تصاویر تهیه می کند. مزیت این روش، حفظ سطوح دسترسی، طبقه بندی اطلاعات و همچنین سرعت بیشتر در اسکن و تهیه تصویر اسناد و ذخیره آنهاست. بزرگترین عیب این روش، تصویر بودن اسناد است. از آنجاییکه اسناد در این سیستم به صورت عکس نگهداری می شوند، آیتم های اطلاعاتی موجود در آنها قابل استخراج و استفاده نیست. فقط یک انسان می تواند این عکس را ببیند، با چشم آن را بخواند و از اطلاعات آن استفاده کند. 3. تهیه تصاویر اسناد کاغذی، پردازش تصویر آنها و استخراج اطلاعات گستره دانش هوش مصنوعی روش ها و الگوریتم هایی را برای پردازش تصاویر در اختیار قرار می دهد. با بکارگیری این الگوریتم ها، رایانه قابلیت تشخیص و شناسایی اجزای مختلف یک عکس را دارا می شود. بخش دیگری از دنیای هوش مصنوعی مربوط به تشخیص اجزای شناسایی شده است. یکی از کاربرد های این الگوریتم ها، تشخیص حروف، اعداد و متن های نوشته شده در تصویر است. به این روش Optical Character Recognition یا اختصارا OCR گفته می شود. با بکارگیری این روش و پردازش تصویر اسناد کاغذی می توان فیلدهای اطلاعاتی نوشته شده در اسناد کاغذی را به صورت مجزا استخراج کرد و از آنها به منظور ذخیره سازی، پردازش، مدیریت و گزارش گیری استفاده کرد. پیچیدگی مربوط به الگوریتم های OCR و همچنین پیچیدگی های مربوط به بهینه سازی و استفاده از آنها در زبان فارسی (با توجه به پیچیدگی زبان فارسی) استفاده از این روش را در ایران با مشکل مواجه کرده است. سیستم های OCR معمولا به دو صورت عمل میکنند ؛
• خواندن متون تایپی، یعنی قادر به خواندن متون ازقبل تایپ شده مثل روزنامه ها، کتاب یا اسناد پرینت شده هستند. • خواندن متون دست نویس، این سیستم که Intelligent character recognition یا اختصارا ICR نام دارد حالت پیشرفته تری از OCR است که علاوه بر قابلیت خواندن متون تایپی قابلیت خواندن متون دست نویس (بدون وابستگی به یک دستخط خاص) را دارند. متون دست نویس معمولا به دو صورت گسسته یا پیوسته در اسناد کاغذی نوشته می شوند. متون پیوسته که همان حالت معمول نوشتن است. مانند نوشتن یک نامه، مقاله، قرارداد و ... . متون گسسته نیز مانند فرم های ثبت نام است که در آن حروف یک عبارت به صورت جدا و مجزا در مربع های کنارهم نوشته می شود. نرم افزار « چشم سوم »، محصول منحصر بفرد شرکت سیستم های رایانه ای فراگیر به عنوان یک نرم افزار فرم خوان، با قابلیت قرائت انواع فرم های چند گزینه ای (نظیر پاسخنامه و پرسش نامه) و نوشتاری (نظیر فرم های آماری، ثبت نام و جمع آوری اطلاعات)، یک راه حل جامع برای ورود اطلاعات موجود در اسناد کاغذی به کامپیوتر است. این نرم افزار که 100% تولید مهندسان این شرکت می باشد، بدون استفاده از هیچیک از مولفه های نرم افزاری خارجی و فقط با تکیه بر تحلیل، طراحی و پیاده سازی الگوریتم های پردازش تصویر ویژه زبان فارسی تولید شده است. چشم سوم، نرم افزاری است که از 3 زیرسیستم تشکیل شده است؛
1. OMR، قابلیت تشخیص گزینه ها و قرائت انواع پاسخ نامه، پرسش نامه • تشخیص ضربدر، چک مارک، گزینه های کثیف پاک شده و کمرنگ • عدم وابستگی به مداد، خودکار، ماژیک • تشخیص انواع بارکد یک بعدی و دو بعدی 2. OCR، قابلیت تشخیص متون تایپی • تشخیص حروف و اعداد • عدم وابستگی به فونت و رنگ متن • دقت بسیار بالا در حد چشم انسان 3. ICR، قابلیت تشخیص متون دست نویس • تشخیص اعداد دست نویس • تشخیص حروف دست نویس • عدم وابستگی به فونت و رنگ متن • دقت بسیار بالا در حد چشم انسان ویژگی های منحصر بفرد این نرم افزار عبارتند از؛ • عدم وابستگی به یک فرم و امکان تعریف فرم در محیط کاملا گرافیکی و ساده • عدم وابستگی به اسکنر خاص • دقت بسیار بالا در حد چشم انسان • انواع خروجی با هرگونه فرمت و ساختار برای سازگاری با نرم افزارهای دیگر |