ماشینهای هوش مصنوعی این پتانسیل را دارند که از هر انسانی باهوشتر شوند. تکنیکهای یادگیری عمیق و یادگیری ماشینی، ماشینها را قادر میسازد، بسیاری از وظایف را همانند انسانها انجام دهند. حتی در بسیاری موارد، این ماشینها میتوانند فراتر از تواناییهای انسانی عمل کنند. ماشینهای هوشمند میتوانند دادههای بزرگ را سریعتر و دقیقتر از انسان مورد تجزیهوتحلیل قرار دهند. گرچه آنها هنوز نمیتوانند فکر کنند، اما بعضی اوقات بهتر از انسانها میبینند، صحبت میکنند و شنوندگان خوبی نیز هستند. کامپیوترها با استفاده از بازشناسی خودکار گفتار (ASR)، تشخیص گفتار یا با تبدیل گفتار به متن (SST) میتوانند گفتار گویندگان را درک کنند. این فناوریها کاربردهای زیادی در حوزههای متنوع دارند. در این پست به بررسی کاربرد سیستم تشخیص گفتار میپردازیم.
تشخیص گفتار چیست؟
سیستم تشخیص گفتار یا speech recognition، برنامهای کاربردی است که از طریق آن یک دستگاه میتواند کلمات و عبارات موجود در کلام کاربر را از هم تفکیک کرده و آنها را به فرمت خواندنی زبان ماشین تبدیل کند. تشخیص گفتار تنها با هدف تولید متن از گفتار طراحی شده است، بنابراین کاربر به جای تایپ در صفحه کلید با دستگاهی ارتباط برقرار میکند و این دستگاه مجهز به برنامههایی است که میتواند گفتار انسان را بشنود و متنی را تایپ کند.
تشخیص گفتار چگونه کار میکند؟
مانند سایر نرمافزارهای رایانهای، سیستم تشخیص گفتار نیز از الگوریتمهایی استفاده میکند که بر اساس مدلهای صوتی و زبانی عمل میکنند:
مدلسازی آکوستیکی یا صوتی، واسطی بین واحدهای زبانی یک گفتار و سیگنالهای صوتی است (برقراری ارتباط بین اطلاعات آوایی و صوتی)؛ در حالی که مدلسازی زبانی، صدای تولیدشده را با کلمات بیانشده مطابقت میدهد و این امر به تشخیص تمایز بین کلمات مشابه کمک میکند. این امر موجب شده است تا تشخیص گفتار کاربردهای گستردهای در حوزههای مختلف مانند مسیریابی، پردازش گفتار به متن، شمارهگیر صوتی، جستوجوی گفتاری و سادهسازی شیوهی ورود دادهها و … داشته باشد.
بررسی ۸ کاربرد مهم سیستم تشخیص گفتار
در اواخر قرن بیستم، سیستمهای تشخیص گفتار در اسباببازیها و بازیهای رایانهای، کنترل وسایل مختلف، جمعآوری دادهها و… کاربردهای وسیعی داشتند. سیستم تشخیص گفتار به کسانی که به دلیل ناتواناییهای خاص قادر به استفاده از صفحه کلید نبودند نیز کمک زیادی کرد تا بتوانند تنها از طریق صحبت کردن با کامپیوتر ارتباط برقرار کنند. دستیار صوتی Siri که بر روی آخرین نسخه از آیفونها نصب شده است یکی از برجستهترین رابطهای صوتی تلفنهمراه است و تاثیر تشخیص گفتار در جوامع امروزی را به خوبی نشان میدهد. در این بخش با ما همراه باشید تا برخی از تاثیرات مهم فناوری تشخیص گفتار در حوزههای مختلف را با یکدیگر بررسی کنیم:
۱. موتورهای جستجو
وقتی شخصی از یک موتور جستجو برای یافتن پاسخ مورد نظر خود استفاده میکند، اینکه درخواست خود را به صورت متنی یا صوتی بنویسد، تفاوتهایی با هم دارد. فرد ممکن است در نوشتن درخواست یا تایپ یک کلمه یا واژه، دچار مشکل شود، ولی زمانی که به صورت صوتی این کار را انجام دهد، به نتایج بهتری دست مییابد.
۲. ارائه خدمات به مشتری
بسیاری از مشتریان ممکن است نخواهند با یک اپراتور زنده برای حل مشکلاتشان صحبت کنند و سیستمهای تشخیص گفتار را ترجیح میدهند. این سیستمها با مکتوب کردن گفتوگوهای تماسگیرنده به فهم بهتر سوالات و صحبتهای مشتریان، کاهش زمان انتظار و پاسخگویی بهتر کمک میکنند.
۳. تشخیص خودکارهویت
بسیاری از موسسات برای جلوگیری از افشای اطلاعات شخصی و مهم افراد، ترجیح میدهند از سیستمهای تشخیص گفتار برای احراز هویت مشتریان خود استفاده کنند. بهطور مثال استفاده از voice biometrics (الگوهای صوتی برای تولید هویت منحصربهفرد)، در بانکها و موسسات بانکی به مهار کلاهبرداری و جرایم تلفنی کمک زیادی کرده است.
۴. بانکداری آنلاین
در حال حاضر، شرکتهای بزرگ پرداخت مانند Venmo و PayPal و بانکهایی مانند N26 و بانک کانادا نیز از مدتها قبل با استفاده از دستیارهای صوتی مانند Siri امکان پردازش نقلوانتقالات و پرداختها را به مشتریان خود ارائه کردهاند. بانک Garanti نیز نرمافزار مبتنی بر صدا را راهاندازی کرده است که به مشتریان خود اجازه میدهد تنها با گفتن «من باید پول را به …. منتقل کنم» و ذکر نام آن شخص یا کسبوکار، نقلوانتقال و پرداخت هزینه خدمات را انجام دهند.
۵. دسترسی به اطلاعات در مراکز بهداشت و درمان
در مراکز بهداشت و درمان دسترسی به اطلاعات بدون نیاز به تایپ و به صورت سریع میتواند تاثیر مثبتی بر ایمنی و بازدهی عملیات پزشکی داشته باشد. تنظیم گزارشهای پزشکی، جستجوی صوتی برای دسترسی سریع به اطلاعاتی مانند تعداد بخشهای موجود و تعداد بیماران هر بخش، از جمله کاربردهای فناوری تشخیص گفتار و تبدیل گفتار به متن در مراکز درمانی است. مهمترین نگرانی در مورد استفاده از تشخیص گفتار (تبدیل گفتار به متن) در مراکز بهداشت و درمان، محتوایی است که دستیار دیجیتالی به آن دسترسی دارد. این محتوا باید توسط موسسات پزشکی تایید و تولید شود تا قابل اعتماد باشند.
۶. تولید زیرنویس خودکار (در یوتیوب)
برای تولید خودکار زیرنویس فیلمها در یوتیوب نیز از فناوری شناسایی گفتار و تبدیل گفتار به متن استفاده میشود. اگر ویدئویی را بارگذاری میکنید که شامل سخنرانی یا گفتگویی میان افراد است، یوتیوب آن را تشخیص داده و زیرنویس را به طور خودکار تولید میکند.
۷. تبدیل گفتار به متن در محیط کار
فناوری تشخیص گفتار و تبدیل گفتار به متن برای انجام بسیاری از وظایف تکراری معمول در محل کار نیز مورد استفاده قرار میگیرد. نمونهای از وظایف اداری که این دستیار دیجیتالی میتواند انجام دهد، عبارتند از:
- تنظیم صورت جلسه: در زمینه یادگیری عمیق و هوش مصنوعی پیشرفتهای چشمگیری به دست آمده است و اکنون نرمافزارهای یادداشتبرداری مانند Fireflies میتوانند صدا و نحوه حرف زدن افراد را کلمه به کلمه بررسی کرده و آنها را به متن تایپ شده تبدیل کنند. این سیستمهای تبدیل گفتار به متن همچنین میتوانند بین صدای افراد گوناگون تفاوت قائل شوند و قطع شدن صدای افراد را نیز تشخیص دهند.
- جستجوی صوتی گزارشها یا اسناد در رایانه
- ایجاد نمودار یا جدول با استفاده از دادههای صوتی و تبدیل آنها به متن
- فرمان صوتی برای افزودن اطلاعات موردنیاز به یک سند
- چاپ اسناد درخواستی
- شروع کنفرانسهای ویدئویی
۸. کاربردهای دیگر سیستم تشخیص گفتار و تبدیل گفتار به متن
- ترجمههای خودکار
- ارزیابی تلفظ در برنامههای یادگیری زبان
- گزارشنویسی در دادگاهها (تبدیل متن به گفتار در لحظه)
- اتوماسیون خانگی
- تهیه گزارش از مصاحبهها توسط روزنامهنگاران
- تولید محتوا توسط نویسندگان
نتیجهگیری
در این پست با فناوری تشخیص گفتار (تبدیل گفتار به متن) آشنا شدیم و بررسی کردیم که تشخیص گفتار موارد کاربرد فراوانی دارد. البته در حال حاضر به دستورات به نسبت ساده محدود شده است، اما با پیشرفت این فناوری، محققان میتوانند سیستمهای هوشمندتری ایجاد کنند.
برای آشنایی با سایر کاربردهای هوش مصنوعی در کسبوکارها پیشنهاد میکنم این پست پادیوم را مطالعه کنید.
سوالات متداول
سیستم تشخیص گفتار یا speech recognition، برنامهای کاربردی است که از طریق آن یک دستگاه میتواند کلمات و عبارات موجود در کلام کاربر را از هم تفکیک کرده و آنها را به فرمت خواندنی زبان ماشین تبدیل کند. تشخیص گفتار تنها با هدف تولید متن از گفتار طراحی شده است، بنابراین کاربر به جای تایپ در صفحه کلید با دستگاهی ارتباط برقرار میکند و این دستگاه مجهز به برنامههایی است که میتواند گفتار انسان را بشنود و متنی را تایپ کند.
موتورهای جستجو، کمک به نابینایان، اینترنت اشیا، تشخیص هویت آنلاین، تولید زیرنویس خودکار و…. مهمترین کاربردهای سیستم تشخیص گفتار هستند.
منبع: سایت thenextweb.com