پادیوم بلاگ
وب سرویس تبدیل صوت به متن

کاربردهای نوآورانه تکنولوژی تبدیل صوت به متن

صبا محبی
مقالات

بر اساس گزارش  Fortune Business Insights اندازه بازار وب سرویس ها و APIهای تبدیل صوت به متن در سال ۲۰۱۹ در کل دنیا حدود ۱۳۲۰ میلیون دلار بود و پیش‌بینی این موسسه در مورد این بازار جذاب این است که در سال ۲۰۲۷ به عددی حدود ۳۱۰۰ میلیون دلار نزدیک خواهیم شد. همین اعداد نشان می‌دهند که چقدر استفاده از این وب‌سرویس‌ها در محصولات فناورانه رو به رشد است و استقبال کاربران از ابزارهایی متکی بر این سرویس‌ها چقدر زیاد است. از همین رو در این یادداشت نگاهی به کاربردهای این سرویس‌ها داشتیم و ترندهای جهان پیرامون این سرویس را بررسی کردیم. 

اما پیش از اینکه سراغ بخش‌های جذاب‌تر این یادداشت برویم، لازم است این وب سرویس را به اختصار معرفی کنیم. وب سرویس تبدیل صوت به متن، با دریافت یک فایل صوتی (و یا یک فایل ویدیویی)، محتوای متنی را تولید می‌کند. بزرگ‌ترین شرکت‌هایی که به سمت عرضه‌ی سرویس‌های تبدیل صوت به متن در قالب API رفته‌اند، عبارتند از: 

  • AWS
  • گوگل
  • مایکروسافت
  • IBM 
  • Rev.com

شرکت عامراندیش هم در ایران در این زمینه فعالیت‌هایی دارد، پیشنهاد می‌کنیم یادداشت «عامراندیش؛ حرکت در لبه مرز دانش و صنعت» را هم بخوانید. اگر هم برای دورداکت خود نیاز به چنین سرویسی دارید، فرم زیر را پر کنید تا همکاران ما با شما تماس بگیرند:

    اما شاید بزرگ‌ترین ضعف استفاده از APIهای خارجی برای ما این باشد که دقت تشخیص محتوای فارسی در این سرویس‌ها چندان بالا نیست. برای همین استفاده از سرویس‌های شرکت‌های عامراندیش و عصر گویش برای اپلیکیشن‌ها و سرویس‌های ایرانی مناسب‌تر است. 

    وب‌سرویس‌های تبدیل صوت به متن چه کاربردهایی دارد؟ 

    شاید در نگاه اول به نظر برسد استفاده از این ابزار محدود می‌شود به دستیارهای صوتی مثل siri  و یا Google Assistant. اما این سرویس دامنه‌ی کاربرد زیادی دارد و می‌تواند بسیاری از مشکلات کسب‌وکارها را هم حل کند.

    نموداری که مشاهده می‌کنید، در مجله Fortune Business Insights منتشر شده و نشان می‌دهد بیشترین کاربرد APIهای تبدیل صوت به متن در سال ۲۰۱۹ در سیستم‌های تشخیص تقلب و مراکز تماس تلفنی و پشتیبانی شرکت‌هاست. 

    در بسیاری از نهادها، تحلیل‌گران کیفیت و تحلیل‌گران کسب‌وکار به دنبال تحلیل داده‌های صوتی در مراکز پشتیبانی هستند تا رضایت مشتری را افزایش دهند و کارآمدی تیم عملیات را بیشتر کنند. این APIها با بهره‌گیری از سیستم‌های IVR ( مخفف Interactive voice response)می‌توانند تماس‌های صوتی را برای کسب‌وکار شخصی‌سازی کنند و سرعت و کیفیت پاسخگویی را افزایش دهند. 

    همچنین با گسترش استفاده از زیرنویس‌های در لحظه، اپلیکیشن‌ها سعی کردند هر کدام به نحوی از این تکنولوژی در محصول خود استفاده کنند. از طرفی دیگر، بازیگران این حوزه هم سعی کردند با بهبود سیستم تشخیص خود و پشتیبانی از زبان‌های مختلف، سهم بیشتری از این بازار را به خود اختصاص دهند. 

    با این حال، استفاده از تکنولوژی‌های تبدیل صوت به متن، به همین‌ها ختم نمی‌شود. 

    جلسات کاری

    تکنولوژی ASR برای افرادی که بخش زیادی از زمان خود را در جلسات چه آنلاین و چه حضوری، صرف می‌کنند، مفید است. هر کدام از ما راهی برای ثبت مطالب مختلفی که در جلسات مطرح می‌شوند، داریم. اما راهی که مطالب جلسه را به صورت متن پیاده‌سازی کند، مسلما به ما کمک زیادی خواهد کرد. سرویس‌هایی که با دقت این کار را انجام دهند، ما را به داشتن شرح و گزارش جلسات دقیق‌تر و به دور از برداشت شخصی نزدیک خواهد کرد. این روش در کسب‌وکارهایی که زمان برایشان مساوی با پول است، می‌تواند کمک کند به جای نوشتن یادداشت‌های نصفه‌ونیمه و کند کردن ریتم جلسات برای نوت‌برداری، به کمک هوش مصنوعی، این کار به راحتی انجام شود. 

    جلسات ارائه و سخنرانی

    استفاده از تکنولوژی زیرنویس در لحظه می‌تواند به بسیاری از جلسات ارائه کمک کند تاثیر‌گذاری بیشتری در میان مخاطبان داشته باشند. از طرفی دسترس‌پذیری محتوا برای ناشنوایان را هم میسر می‌نماید. همه‌ی این‌ها در کنار هم تجربه‌ی یادگیری بهتری را برای دانشجویان فراهم می‌سازد. 

    پادکست‌سازی

    دنیای پادکست‌سازی از دو دهه‌ی پیش رشد و پیشرفت بسیاری داشته است. اگرچه از ۵ سال پیش ما رشد و فراگیری بیشتری را در این صنعت شاهد بودیم. در حال حاضر شاهد این هستیم که بسیاری از چهره‌های مشهور دنیا به سمن پادکست‌سازی با موضوعات خاص و نیچ رفته‌اند: چرا که تقاضا برای موضوعات جزئی‌تر بیشتر و بیشتر شده است. 

    تکنولوژی‌های تبدیل صوت به متن می‌تواند دنیای پادکست‌ها را تقویت کند و کار را برای سازندگان پادکست راحت‌تر کند. در این حالت بعد از ضبط پادکست، فرد می‌تواند متن پادکست را هم داشته باشد و هر دو را به صورت همزمان منتشر کند. 

    ربات‌های چت

    شرکت‌ها می‌توانند ربات‌های چتی برای خود بسازند که بر اساس کلمات کلیدی اصلی، به پیام‌های صوتی کاربران پاسخ‌های خودکار بدهند. این ابزار می‌تواند هزینه‌های نیروی انسانی را کاهش دهد و سرعت پشتیبانی را افزایش دهند. 

    چت همزمان با بازی

    یکی از نیازهای گیمرها، این است که در زمان بازی با هم‌تیمی‌ها و یا رقبای خود بتوانند ارتباط برقرار کنند. بسیاری از آن‌ها از سیستم‌های مکالمه صوتی استفاده می‌کنند. اما می‌توان به کمک ابزارهای تبدیل صوت به متن کاری کرد که فرد به جای اینکه مجبور باشد صدای بازی را قطع کند تا صدای هم‌تیمی‌اش را بشنود و منظور خود را به هم‌بازی خود برساند، صحبتش به صورت در لحظه در قالب متن به دست طرف مقابل برسد. 

    در ایران چطور؟

    در حال حاضر شرکت‌های مختلفی در زمینه تبدیل صوت به متن به کمک هوش مصنوعی فعالیت می‌کنند و محصول خود را در قالب API  به بازار عرضه می‌کنند. در پادیوم می‌هوانید از دو سرویس‌دهنده‌ی عامراندیش و عصر گویش این API  را دریافت کنید و بسته به نیاز خود از آن استفاده کنید.