پادیوم بلاگ
speech recognition

سیستم های تشخیص گفتار و کاربرد آن‌ها در زندگی ما

ثمین رادفر
تکنولوژی ، مقالات

ماشین‌های هوش مصنوعی این پتانسیل را دارند که از هر انسانی باهوش‌تر شوند. تکنیک‌های یادگیری عمیق و یادگیری ماشینی، ماشین‌ها را قادر می‌سازد، بسیاری از وظایف را همانند انسان‌ها انجام دهند. حتی در بسیاری موارد، این ماشین‌ها می‌توانند فراتر از توانایی‌های انسانی عمل کنند. ماشین‌های هوشمند می‌توانند داده‌های بزرگ را سریع‌تر و دقیق‌تر از انسان مورد تجزیه‌وتحلیل قرار دهند. گرچه آن‌ها هنوز نمی‌توانند فکر کنند، اما بعضی اوقات بهتر از انسان‌ها می‌بینند، صحبت می‌کنند و شنوندگان خوبی نیز هستند. کامپیوترها با استفاده از بازشناسی خودکار گفتار (ASR)، تشخیص گفتار یا با تبدیل گفتار به متن (SST‌) می‌توانند گفتار گویندگان را درک کنند. این فناوری‌ها کاربردهای زیادی در حوزه‌های متنوع دارند. در این پست به بررسی کاربرد سیستم تشخیص گفتار می‌پردازیم. 

تشخیص گفتار چیست؟

سیستم تشخیص گفتار یا speech recognition، برنامه‌ای کاربردی است که از طریق آن یک دستگاه می‌تواند کلمات و عبارات موجود در کلام کاربر را از هم تفکیک کرده و آن‌ها را به فرمت خواندنی زبان ماشین تبدیل کند. تشخیص گفتار تنها با هدف تولید متن از گفتار طراحی شده است، بنابراین کاربر به جای تایپ در صفحه کلید با دستگاهی ارتباط برقرار می‌کند و این دستگاه مجهز به برنامه‌هایی است که می‌تواند گفتار انسان را بشنود و متنی را تایپ کند. 

تشخیص گفتار چگونه کار می‌کند؟

مانند سایر نرم‌افزارهای رایانه‌ای، سیستم تشخیص گفتار نیز از الگوریتم‌هایی استفاده می‌کند که بر اساس مدل‌های صوتی و زبانی عمل می‌کنند: 

مدل‌سازی آکوستیکی یا صوتی، واسطی بین واحدهای زبانی یک گفتار و سیگنال‌های صوتی است (برقراری ارتباط بین اطلاعات آوایی و صوتی)؛ در حالی که مدل‌سازی زبانی، صدای تولید‌شده را با کلمات بیان‌شده مطابقت می‌دهد و این امر به تشخیص تمایز بین کلمات مشابه کمک می‌کند. این امر موجب شده است تا تشخیص گفتار کاربردهای گسترده‌ای در حوزه‌های مختلف مانند مسیریابی، پردازش گفتار به متن، شماره‌گیر صوتی، جست‌و‌جوی گفتاری و ساده‌سازی شیوه‌ی ورود داده‌ها و … داشته باشد.   

تشخیص گفتار- speech recognition - تبدیل صوت به متن

بررسی ۸ کاربرد مهم سیستم تشخیص گفتار

در اواخر قرن بیستم، سیستم‌های تشخیص گفتار در اسباب‌بازی‌ها و بازی‌های رایانه‌ای، کنترل وسایل مختلف، جمع‌آوری داده‌ها و… کاربردهای وسیعی داشتند. سیستم تشخیص گفتار به کسانی که به دلیل ناتوانایی‌های خاص قادر به استفاده از صفحه کلید نبودند نیز کمک زیادی کرد تا بتوانند تنها از طریق صحبت کردن با کامپیوتر ارتباط برقرار کنند. دستیار صوتی Siri که بر روی آخرین نسخه از آیفون‌ها نصب شده است یکی از برجسته‌ترین رابط‌های صوتی تلفن‌همراه است و تاثیر تشخیص گفتار در جوامع امروزی را به خوبی نشان می‌دهد. در این بخش با ما همراه باشید تا برخی از تاثیرات مهم فناوری تشخیص گفتار در حوزه‌های مختلف را با یکدیگر بررسی کنیم:‌

۱. موتورهای جستجو

وقتی شخصی از یک موتور جستجو برای یافتن پاسخ مورد نظر خود استفاده می‌کند، اینکه درخواست خود را به صورت متنی یا صوتی بنویسد، تفاوت‌هایی با هم دارد. فرد ممکن است در نوشتن درخواست یا تایپ یک کلمه یا واژه، دچار مشکل شود، ولی زمانی که به صورت صوتی این کار را انجام دهد، به نتایج بهتری دست می‌یابد. 

۲. ارائه خدمات به مشتری

بسیاری از مشتریان ممکن است نخواهند با یک اپراتور زنده برای حل مشکلاتشان صحبت کنند و سیستم‌های تشخیص گفتار را ترجیح می‌دهند. این سیستم‌ها با مکتوب کردن گفت‌وگوهای تماس‌گیرنده به فهم بهتر سوالات و صحبت‌های مشتریان، کاهش زمان انتظار و پاسخگویی بهتر کمک می‌کنند. 

۳. تشخیص خودکارهویت

بسیاری از موسسات برای جلوگیری از افشای اطلاعات شخصی و مهم افراد، ترجیح می‌دهند از سیستم‌های تشخیص گفتار برای احراز هویت مشتریان خود استفاده کنند. به‌طور مثال استفاده از voice biometrics (الگوهای صوتی برای تولید هویت منحصر‌به‌فرد)، در بانک‌ها و موسسات بانکی به مهار کلاه‌برداری و جرایم تلفنی کمک زیادی کرده است.  

۴. بانکداری آنلاین

در حال حاضر، شرکت‌های بزرگ پرداخت مانند Venmo و PayPal و بانک‌هایی مانند N26 و بانک کانادا نیز از مدت‌ها قبل با استفاده از دستیارهای صوتی مانند Siri امکان پردازش نقل‌و‌انتقالات و پرداخت‌ها را به مشتریان خود ارائه کرده‌اند. بانک Garanti نیز نرم‌افزار مبتنی بر صدا را راه‌اندازی کرده است که به مشتریان خود اجازه می‌دهد تنها با گفتن «من باید پول را به …. منتقل کنم» و ذکر نام آن شخص یا کسب‌وکار، نقل‌و‌انتقال و پرداخت هزینه خدمات را انجام دهند.

۵. دسترسی به اطلاعات در مراکز بهداشت و درمان

در مراکز بهداشت و درمان دسترسی به اطلاعات بدون نیاز به تایپ و به صورت سریع می‌تواند تاثیر مثبتی بر ایمنی و بازدهی عملیات پزشکی داشته باشد. تنظیم گزارش‌های پزشکی، جستجوی صوتی برای دسترسی سریع به اطلاعاتی مانند تعداد بخش‌های موجود و تعداد بیماران هر بخش، از جمله کاربردهای فناوری تشخیص گفتار و تبدیل گفتار به متن در مراکز درمانی است. مهم‌ترین نگرانی در مورد استفاده از تشخیص گفتار (تبدیل گفتار به متن) در مراکز بهداشت و درمان، محتوایی است که دستیار دیجیتالی به آن دسترسی دارد. این محتوا باید توسط موسسات پزشکی تایید و تولید شود تا قابل اعتماد باشند.

۶. تولید زیرنویس‌ خودکار (در یوتیوب)

برای تولید خودکار زیرنویس فیلم‌ها در یوتیوب نیز از فناوری شناسایی گفتار و تبدیل گفتار به متن استفاده می‌شود. اگر ویدئویی را بارگذاری می‌کنید که شامل سخنرانی یا گفتگویی میان افراد است، یوتیوب آن را تشخیص داده و زیرنویس را به طور خودکار تولید می‌کند. 

۷. تبدیل گفتار به متن در محیط کار

فناوری تشخیص گفتار و تبدیل گفتار به متن برای انجام بسیاری از وظایف تکراری معمول در محل کار نیز مورد استفاده قرار می‌گیرد. نمونه‌ای از وظایف اداری که این دستیار دیجیتالی می‌تواند انجام دهد، عبارتند از:

  • تنظیم صورت جلسه: در زمینه یادگیری عمیق و هوش مصنوعی پیشرفت‌های چشمگیری به دست آمده است و اکنون نرم‌افزارهای یادداشت‌برداری مانند Fireflies می‌توانند صدا و نحوه حرف زدن افراد را کلمه به کلمه بررسی کرده و آن‌‌ها را به متن تایپ شده تبدیل کنند. این سیستم‌های تبدیل گفتار به متن همچنین می‌توانند بین صدای افراد گوناگون تفاوت قائل شوند و قطع شدن صدای افراد را نیز تشخیص دهند.
  • جستجوی صوتی گزارش‌ها یا اسناد در رایانه
  • ایجاد نمودار یا جدول‌ با استفاده از داده‌های صوتی و تبدیل آن‌ها به متن
  • فرمان صوتی برای افزودن اطلاعات مورد‌نیاز به یک سند
  • چاپ اسناد درخواستی
  • شروع کنفرانس‌های ویدئویی

۸. کاربردهای دیگر سیستم تشخیص گفتار و تبدیل گفتار به متن

  • ترجمه‌های خودکار
  • ارزیابی تلفظ در برنامه‌های یادگیری زبان
  • گزارش‌نویسی در دادگاه‌ها (تبدیل متن به گفتار در لحظه)
  • اتوماسیون خانگی
  • تهیه گزارش از مصاحبه‌ها توسط روزنامه‌نگاران
  • تولید محتوا توسط نویسندگان

نتیجه‌گیری

در این پست با فناوری تشخیص گفتار (تبدیل گفتار به متن) آشنا شدیم و بررسی کردیم که تشخیص گفتار موارد کاربرد فراوانی دارد. البته در حال حاضر به دستورات به نسبت ساده محدود شده است، اما با پیشرفت این فناوری، محققان می‌توانند سیستم‌های هوشمندتری ایجاد کنند. 

برای آشنایی با سایر کاربردهای هوش مصنوعی در کسب‌وکارها پیشنهاد می‌کنم این پست پادیوم را مطالعه کنید.

سوالات متداول

سیستم تشخیص گفتار به زبان ساده به چه معناست؟

سیستم تشخیص گفتار یا speech recognition، برنامه‌ای کاربردی است که از طریق آن یک دستگاه می‌تواند کلمات و عبارات موجود در کلام کاربر را از هم تفکیک کرده و آن‌ها را به فرمت خواندنی زبان ماشین تبدیل کند. تشخیص گفتار تنها با هدف تولید متن از گفتار طراحی شده است، بنابراین کاربر به جای تایپ در صفحه کلید با دستگاهی ارتباط برقرار می‌کند و این دستگاه مجهز به برنامه‌هایی است که می‌تواند گفتار انسان را بشنود و متنی را تایپ کند. 

مهم‌ترین کاربردهای سیستم تشخیص گفتار چیست؟

موتورهای جستجو، کمک به نابینایان، اینترنت اشیا، تشخیص هویت آنلاین، تولید زیرنویس خودکار و…. مهم‌ترین کاربردهای سیستم تشخیص گفتار هستند.

منبع: سایت thenextweb.com