آیا تا به حال برای شما پیش آمده که مشغول خواندن یک کتاب باشید و بخواهید بخشی از متن کتاب را در یک مقاله علمی و یا حتی در شبکههای اجتماعی در قالب کپشن به اشتراک بگذارید؟ در این حالت یا میتوانید از روی متن کتاب دوباره تایپ کنید، یا از فناوریهای تبدیل عکس به متن، استفاده کنید. اینجاست که پای تکنولوژی OCR به میان میآید. اما OCR چیست؟ OCR مخفف عبارت optical character recognition و به معنی تشخیص کاراکتر نوری است. از OCR برای تشخیص کاراکترهای متن چاپ شده یا دستنویس در تصاویر دیجیتال اسناد فیزیکی، مانند یک سند کاغذی اسکن شده استفاده میشود. فرایند اولیه OCR شامل بررسی متن یک سند و ترجمه کاراکترها به کد است که میتواند برای پردازش دادهها استفاده شود. گاهی به OCR تکنولوژی تشخیص متن هم گفته میشود.
سیستمهای OCR از ترکیبی از سختافزار و نرمافزار تشکیل شدهاند که برای تبدیل اسناد فیزیکی به متن قابل خواندن توسط ماشین استفاده میشود. سختافزار یعنی وسایلی مانند اسکنر نوری یا برد مدار تخصصی برای کپی یا خواندن متن. نرمافزارها هم معمولا پردازش پیشرفته را انجام میدهند. گاهی فرایند پردازش بسته به نیاز با استفاده از هوش مصنوعی (AI) صورت میپذیرد که در این صورت میتوان روشهای پیشرفتهتر تشخیص کاراکتر هوشمند(ICR) مانند شناسایی زبانها و سبکهای متون دستنویس را پیادهسازی کرد. در ادامه دربارهی اینکه OCR چیست و چه کاربردی در محصولات فناورانه دارد، صحبت خواهیم کرد.
کاربرد OCR چیست؟
فرایند OCR معمولا برای تبدیل اسناد قانونی یا تاریخی نسخهی چاپی به PDF استفاده میشود. پس از قرار دادن در این نسخه نرمافزاری، کاربران میتوانند سند را طوری ویرایش، قالببندی و جستجو کنند که گویی با یک واژهپرداز (word processor) ایجاد شده است.
از جمله کاربردهای عملیاتی فرایند OCR میتوان به موارد زیر اشاره کرده:
- تبدیل اطلاعات مدارک هویتی در فرایند ثبت نام ادارات؛ برای مثال با آپلود کارت ملی، فیلدهای مربوط به نام و نام خانوادگی و … در زمان ثبت نام کنکور به صورت خودکار پر شوند.
- تبدیل اطلاعات کارت بانکی در اپلیکیشنهای پرداخت؛ برای مثال موقع ثبت اطلاعات کارت در اپلیکیشن آپ، فقط لازم باشد که از روی کارت بانکی عکس بگیرید.
- تبدیل اطلاعات کنتور؛ برای مثال زمانی که مامور آب میخواهد میزان مصرف ماهانه آب خانوارها را بخواند، فقط یک عکس از کنتور بگیرد و بقیه کارها را به عهدهی سیستم بگذارد.
پیشنهاد میکنیم یادداشت «تنخواهگردان چیست؟» را هم بخوانید.
نحوهی عملکرد OCR
اولین مرحلهی OCR استفاده از یک اسکنر برای پردازش فرم فیزیکی یک سند است. هنگامی که تمام صفحات کپی میشوند، نرمافزار OCR سند را به یک نسخه دو رنگ یا سیاه و سفید تبدیل میکند. تصویر اسکن شده به این صورت است که مناطق تیره به عنوان کاراکترهایی که باید شناسایی شوند، پردازش میشوند.
در گام اول پردازش، مناطق تاریک برای پیدا کردن حروف الفبا و اعداد بررسی میشوند. برنامههای OCR از تکنیکهای مختلفی استفاده میکنند. اما معمولا یک کاراکتر، کلمه یا بلوک را پیدا میکنند و سپس یکی از دو کارهای زیر را انجام میدهند:
تشخیص الگو: نمونههایی از متنها مختلف را با فونتها و قالبهای مختلف به عنوان محل تغذیه استفاده میکنند و سپس کاراکترهای سند اسکن شده را با آن مقایسه میکنند و تشخیص میدهند.
تشخیص ویژگی: برنامههای OCR معمولا از قوانینی برای تشخیص کاراکترهای سند اسکن شده استفاده میکنند. این قوانین دربارهی ویژگیهای یک حرف یا عدد هستند؛ یعنی تعداد خطوط زاویهدار، خطوط متقاطع یا منحنی در یک کاراکتر و …. به آنها کمک میکند یک حرف را تشخیص دهند. برای مثال برای این نوع از برنامههای OCR حرف A دو خط مورب و یک خط افقی در وسط این دو خط مورب است.
زمانی که یک کاراکتر شناسایی میشود، به یک کد ASCII تبدیل میشود که امکان دستکاری را برای پردازشگرها فراهم میکند.
APIهای پادیوم در زمینه OCR
پادیوم در زمینه OCR سه مجموعه API دارد که در ادامه به توضیح آنها میپردازیم:
OCR گواهینامه و کارت خودرو
با استفاده از این سرویس میتوانید با داشتن تصویر کارت خودرو یا گواهینامه اطلاعات آنها را استخراج کنید. این سرویس برای کسبوکارهای فعال در زمینهی اجارهی خودرو، بیمه، وام و… مناسب باشد.
OCR اطلاعات شناسنامه
با استفاده از این سرویس میتوانید به کمک تصویر صفحه اول شناسنامه، اطلاعاتی نظیر کد ملی، نام پدر، نام مادر و … را استخراج کنید. این سرویس برای اغلب کسبوکارهایی که میخواهند احراز هویت دقیقی از کاربران و مشترکان خود صورت دهند، مناسب است.
OCR کنتور برق
این سرویس به شرکت برق کمک میکند که هزینههای عملیاتی خود را تا حد بسیاری کاهش دهد. چرا که مشترکین میتوانند در پایان هر دوره از کنتور برق خود عکس بگیرند و شرکت برق با استفاده از پردازشگرهای خود اطلاعات کنتور را به متن تبدیل کنند.
سوالات متداول
OCR مخفف عبارت optical character recognition و به معنی تشخیص کاراکتر نوری است. از OCR برای تشخیص کاراکترهای متن چاپ شده یا دستنویس در تصاویر دیجیتال اسناد فیزیکی، مانند یک سند کاغذی اسکن شده استفاده میشود.
فرایند OCR معمولا برای تبدیل اسناد قانونی یا تاریخی نسخهی چاپی به PDF استفاده میشود. اما در موارد دیگری هم کاربرد دارد.