بر اساس گزارش Fortune Business Insights اندازه بازار وب سرویس ها و APIهای تبدیل صوت به متن در سال ۲۰۱۹ در کل دنیا حدود ۱۳۲۰ میلیون دلار بود و پیشبینی این موسسه در مورد این بازار جذاب این است که در سال ۲۰۲۷ به عددی حدود ۳۱۰۰ میلیون دلار نزدیک خواهیم شد. همین اعداد نشان میدهند که چقدر استفاده از این وبسرویسها در محصولات فناورانه رو به رشد است و استقبال کاربران از ابزارهایی متکی بر این سرویسها چقدر زیاد است. از همین رو در این یادداشت نگاهی به کاربردهای این سرویسها داشتیم و ترندهای جهان پیرامون این سرویس را بررسی کردیم.
اما پیش از اینکه سراغ بخشهای جذابتر این یادداشت برویم، لازم است این وب سرویس را به اختصار معرفی کنیم. وب سرویس تبدیل صوت به متن، با دریافت یک فایل صوتی (و یا یک فایل ویدیویی)، محتوای متنی را تولید میکند. بزرگترین شرکتهایی که به سمت عرضهی سرویسهای تبدیل صوت به متن در قالب API رفتهاند، عبارتند از:
- AWS
- گوگل
- مایکروسافت
- IBM
- Rev.com
شرکت عامراندیش هم در ایران در این زمینه فعالیتهایی دارد، پیشنهاد میکنیم یادداشت «عامراندیش؛ حرکت در لبه مرز دانش و صنعت» را هم بخوانید. اگر هم برای دورداکت خود نیاز به چنین سرویسی دارید، فرم زیر را پر کنید تا همکاران ما با شما تماس بگیرند:
اما شاید بزرگترین ضعف استفاده از APIهای خارجی برای ما این باشد که دقت تشخیص محتوای فارسی در این سرویسها چندان بالا نیست. برای همین استفاده از سرویسهای شرکتهای عامراندیش و عصر گویش برای اپلیکیشنها و سرویسهای ایرانی مناسبتر است.
وبسرویسهای تبدیل صوت به متن چه کاربردهایی دارد؟
شاید در نگاه اول به نظر برسد استفاده از این ابزار محدود میشود به دستیارهای صوتی مثل siri و یا Google Assistant. اما این سرویس دامنهی کاربرد زیادی دارد و میتواند بسیاری از مشکلات کسبوکارها را هم حل کند.
نموداری که مشاهده میکنید، در مجله Fortune Business Insights منتشر شده و نشان میدهد بیشترین کاربرد APIهای تبدیل صوت به متن در سال ۲۰۱۹ در سیستمهای تشخیص تقلب و مراکز تماس تلفنی و پشتیبانی شرکتهاست.
در بسیاری از نهادها، تحلیلگران کیفیت و تحلیلگران کسبوکار به دنبال تحلیل دادههای صوتی در مراکز پشتیبانی هستند تا رضایت مشتری را افزایش دهند و کارآمدی تیم عملیات را بیشتر کنند. این APIها با بهرهگیری از سیستمهای IVR ( مخفف Interactive voice response)میتوانند تماسهای صوتی را برای کسبوکار شخصیسازی کنند و سرعت و کیفیت پاسخگویی را افزایش دهند.
همچنین با گسترش استفاده از زیرنویسهای در لحظه، اپلیکیشنها سعی کردند هر کدام به نحوی از این تکنولوژی در محصول خود استفاده کنند. از طرفی دیگر، بازیگران این حوزه هم سعی کردند با بهبود سیستم تشخیص خود و پشتیبانی از زبانهای مختلف، سهم بیشتری از این بازار را به خود اختصاص دهند.
با این حال، استفاده از تکنولوژیهای تبدیل صوت به متن، به همینها ختم نمیشود.
جلسات کاری
تکنولوژی ASR برای افرادی که بخش زیادی از زمان خود را در جلسات چه آنلاین و چه حضوری، صرف میکنند، مفید است. هر کدام از ما راهی برای ثبت مطالب مختلفی که در جلسات مطرح میشوند، داریم. اما راهی که مطالب جلسه را به صورت متن پیادهسازی کند، مسلما به ما کمک زیادی خواهد کرد. سرویسهایی که با دقت این کار را انجام دهند، ما را به داشتن شرح و گزارش جلسات دقیقتر و به دور از برداشت شخصی نزدیک خواهد کرد. این روش در کسبوکارهایی که زمان برایشان مساوی با پول است، میتواند کمک کند به جای نوشتن یادداشتهای نصفهونیمه و کند کردن ریتم جلسات برای نوتبرداری، به کمک هوش مصنوعی، این کار به راحتی انجام شود.
جلسات ارائه و سخنرانی
استفاده از تکنولوژی زیرنویس در لحظه میتواند به بسیاری از جلسات ارائه کمک کند تاثیرگذاری بیشتری در میان مخاطبان داشته باشند. از طرفی دسترسپذیری محتوا برای ناشنوایان را هم میسر مینماید. همهی اینها در کنار هم تجربهی یادگیری بهتری را برای دانشجویان فراهم میسازد.
پادکستسازی
دنیای پادکستسازی از دو دههی پیش رشد و پیشرفت بسیاری داشته است. اگرچه از ۵ سال پیش ما رشد و فراگیری بیشتری را در این صنعت شاهد بودیم. در حال حاضر شاهد این هستیم که بسیاری از چهرههای مشهور دنیا به سمن پادکستسازی با موضوعات خاص و نیچ رفتهاند: چرا که تقاضا برای موضوعات جزئیتر بیشتر و بیشتر شده است.
تکنولوژیهای تبدیل صوت به متن میتواند دنیای پادکستها را تقویت کند و کار را برای سازندگان پادکست راحتتر کند. در این حالت بعد از ضبط پادکست، فرد میتواند متن پادکست را هم داشته باشد و هر دو را به صورت همزمان منتشر کند.
رباتهای چت
شرکتها میتوانند رباتهای چتی برای خود بسازند که بر اساس کلمات کلیدی اصلی، به پیامهای صوتی کاربران پاسخهای خودکار بدهند. این ابزار میتواند هزینههای نیروی انسانی را کاهش دهد و سرعت پشتیبانی را افزایش دهند.
چت همزمان با بازی
یکی از نیازهای گیمرها، این است که در زمان بازی با همتیمیها و یا رقبای خود بتوانند ارتباط برقرار کنند. بسیاری از آنها از سیستمهای مکالمه صوتی استفاده میکنند. اما میتوان به کمک ابزارهای تبدیل صوت به متن کاری کرد که فرد به جای اینکه مجبور باشد صدای بازی را قطع کند تا صدای همتیمیاش را بشنود و منظور خود را به همبازی خود برساند، صحبتش به صورت در لحظه در قالب متن به دست طرف مقابل برسد.
در ایران چطور؟
در حال حاضر شرکتهای مختلفی در زمینه تبدیل صوت به متن به کمک هوش مصنوعی فعالیت میکنند و محصول خود را در قالب API به بازار عرضه میکنند. در پادیوم میهوانید از دو سرویسدهندهی عامراندیش و عصر گویش این API را دریافت کنید و بسته به نیاز خود از آن استفاده کنید.