OCR چیست؟

صبا محبی

۱۹ آذر ۱۴۰۱

مقالات

مدت مطالعه: ۳ دقیقه

تعداد بازدید‌: ۲۴۳۹

کاربرد API

آیا تا به حال برای شما پیش آمده که مشغول خواندن یک کتاب باشید و بخواهید بخشی از متن کتاب را در یک مقاله علمی و یا حتی در شبکه‌های اجتماعی در قالب کپشن به اشتراک بگذارید؟ در این حالت یا می‌توانید از روی متن کتاب دوباره تایپ کنید، یا از فناوری‌های تبدیل عکس به متن، استفاده کنید. اینجاست که پای تکنولوژی OCR به میان می‌آید. اما OCR چیست؟ OCR مخفف عبارت optical character recognition و به معنی تشخیص کاراکتر نوری است. از OCR برای تشخیص کاراکترهای متن چاپ شده یا دست‌نویس در تصاویر دیجیتال اسناد فیزیکی، مانند یک سند کاغذی اسکن شده استفاده می‌شود. فرایند اولیه OCR شامل بررسی متن یک سند و ترجمه کاراکترها به کد است که می‌تواند برای پردازش داده‌ها استفاده شود. گاهی به OCR تکنولوژی تشخیص متن هم گفته می‌شود.

سیستم‌های OCR از ترکیبی از سخت‌افزار و نرم‌افزار تشکیل شده‌اند که برای تبدیل اسناد فیزیکی به متن قابل خواندن توسط ماشین استفاده می‌شود. سخت‌افزار یعنی وسایلی مانند اسکنر نوری یا برد مدار تخصصی برای کپی یا خواندن متن. نرم‌افزارها هم معمولا پردازش پیشرفته را انجام می‌دهند. گاهی فرایند پردازش بسته به نیاز با استفاده از هوش مصنوعی (AI) صورت می‌پذیرد که در این صورت می‌توان روش‌های پیشرفته‌تر تشخیص کاراکتر هوشمند(ICR) مانند شناسایی زبان‌ها و سبک‌های متون دست‌نویس را پیاده‌سازی کرد. در ادامه درباره‌ی اینکه OCR چیست و چه کاربردی در محصولات فناورانه دارد، صحبت خواهیم کرد.

کاربرد OCR چیست؟

فرایند OCR معمولا برای تبدیل اسناد قانونی یا تاریخی نسخه‌ی چاپی به PDF استفاده می‌شود. پس از قرار دادن در این نسخه نرم‌افزاری، کاربران می‌توانند سند را طوری ویرایش، قالب‌بندی و جستجو کنند که گویی با یک واژه‌پرداز (word processor) ایجاد شده است.

از جمله کاربردهای عملیاتی فرایند OCR می‌توان به موارد زیر اشاره کرده:

تبدیل اطلاعات مدارک هویتی در فرایند ثبت نام ادارات؛ برای مثال با آپلود کارت ملی، فیلدهای مربوط به نام و نام خانوادگی و … در زمان ثبت نام کنکور به صورت خودکار پر شوند.
تبدیل اطلاعات کارت بانکی در اپلیکیشن‌های پرداخت؛ برای مثال موقع ثبت اطلاعات کارت در اپلیکیشن آپ، فقط لازم باشد که از روی کارت بانکی عکس بگیرید.
تبدیل اطلاعات کنتور؛ برای مثال زمانی که مامور آب می‌خواهد میزان مصرف ماهانه آب خانوارها را بخواند، فقط یک عکس از کنتور بگیرد و بقیه کارها را به عهده‌ی سیستم بگذارد.

پیشنهاد می‌کنیم یادداشت «تنخواه‌گردان چیست؟» را هم بخوانید.

نحوه‌ی عملکرد OCR

اولین مرحله‌ی OCR استفاده از یک اسکنر برای پردازش فرم فیزیکی یک سند است. هنگامی که تمام صفحات کپی می‌شوند، نرم‌افزار OCR سند را به یک نسخه دو رنگ یا سیاه و سفید تبدیل می‌کند. تصویر اسکن شده به این صورت است که مناطق تیره به عنوان کاراکترهایی که باید شناسایی شوند، پردازش می‌شوند.

در گام اول پردازش، مناطق تاریک برای پیدا کردن حروف الفبا و اعداد بررسی می‌شوند. برنامه‌های OCR از تکنیک‌های مختلفی استفاده می‌کنند. اما معمولا یک کاراکتر، کلمه یا بلوک را پیدا می‌کنند و سپس یکی از دو کارهای زیر را انجام می‌دهند:

تشخیص الگو‌‌: نمونه‌هایی از متن‌ها مختلف را با فونت‌ها و قالب‌های مختلف به عنوان محل تغذیه استفاده می‌کنند و سپس کاراکترهای سند اسکن شده را با آن مقایسه می‌کنند و تشخیص می‌دهند.

تشخیص ویژگی: برنامه‌های OCR معمولا از قوانینی برای تشخیص کاراکترهای سند اسکن شده استفاده می‌کنند. این قوانین درباره‌ی ویژگی‌های یک حرف یا عدد هستند؛ یعنی تعداد خطوط زاویه‌دار، خطوط متقاطع یا منحنی در یک کاراکتر و …. به آن‌ها کمک می‌کند یک حرف را تشخیص دهند. برای مثال برای این نوع از برنامه‌های OCR حرف A دو خط مورب و یک خط افقی در وسط این دو خط مورب است.

زمانی که یک کاراکتر شناسایی می‌شود، به یک کد ASCII تبدیل می‌شود که امکان دستکاری را برای پردازشگرها فراهم می‌کند.

APIهای پادیوم در زمینه OCR

پادیوم در زمینه OCR سه مجموعه API دارد که در ادامه به توضیح آن‌ها می‌پردازیم:

OCR گواهینامه و کارت خودرو

با استفاده از این سرویس می‌توانید با داشتن تصویر کارت خودرو یا گواهینامه اطلاعات آن‌ها را استخراج کنید. این سرویس برای کسب‌وکارهای فعال در زمینه‌ی اجاره‌ی خودرو، بیمه، وام و… مناسب باشد.

دریافت API

OCR اطلاعات شناسنامه

با استفاده از این سرویس می‌توانید به کمک تصویر صفحه اول شناسنامه، اطلاعاتی نظیر کد ملی، نام پدر، نام مادر و … را استخراج کنید. این سرویس برای اغلب کسب‌وکارهایی که می‌خواهند احراز هویت دقیقی از کاربران و مشترکان خود صورت دهند، مناسب است.

دریافت API

OCR کنتور برق

این سرویس به شرکت برق کمک می‌کند که هزینه‌های عملیاتی خود را تا حد بسیاری کاهش دهد. چرا که مشترکین می‌توانند در پایان هر دوره از کنتور برق خود عکس بگیرند و شرکت برق با استفاده از پردازشگرهای خود اطلاعات کنتور را به متن تبدیل کنند.

دریافت API

سوالات متداول

OCR مخفف چیست؟

OCR مخفف عبارت optical character recognition و به معنی تشخیص کاراکتر نوری است. از OCR برای تشخیص کاراکترهای متن چاپ شده یا دست‌نویس در تصاویر دیجیتال اسناد فیزیکی، مانند یک سند کاغذی اسکن شده استفاده می‌شود.

از OCR برای چه کارهایی استفاده می‌شود؟

فرایند OCR معمولا برای تبدیل اسناد قانونی یا تاریخی نسخه‌ی چاپی به PDF استفاده می‌شود. اما در موارد دیگری هم کاربرد دارد.