ساخت یک صدای شخصی‌سازی شده به کمک هوش مصنوعی و Azure

تصویر یک گوشی هوشمند با لوگوی Azure برای مقاله ساخت صدای شخصی‌سازی شده با هوش مصنوعی و Azure

ساخت یک صدای شخصی‌سازی شده به کمک هوش مصنوعی و Azure

رضا دهقان

۱ بهمن ۱۴۰۱

تکنولوژی ، مقالات

مدت مطالعه: ۵ دقیقه

تعداد بازدید‌: ۴۳۰۸

هوش مصنوعی

در هفته‌های اخیر ChatGPT دنیای اینترنت را دگرگون کرده است. هر روزه میلیون‌‌ها نفر در سراسر جهان سعی می‌کنند از این سرویس برای اهداف خود استفاده کنند و فضای وب از مقاله‌هایی که کاربردهای خلاقانه و هوشمندانه این سرویس را آموزش می‌دهند، پر شده است. اما معرفی سرویس ChatGPT توسط شرکت OpenAI، یک اثر جانبی دیگر نیز داشت؛ توجه بیشتر به حوزه هوش مصنوعی. همین موضوع باعث شد تا بعد از کمی سر و کله زدن با ChatGPT، به این فکر کنیم که آیا می‌توان از ترکیب این سرویس با سرویس‌های دیگر هوش مصنوعی برای انجام یک وظیفه خاص استفاده کرد؟

بعد از کمی جستجو و آشنایی با سرویس‌های مختلف، به سرویس Speech Studio مایکروسافت رسیدیم. این سرویس به شما اجازه می‌دهد تا یک هوش مصنوعی را برای تقلید صدای خودتان آموزش دهید و از آن برای کارهای مختلف مانند تبدیل متن به صدا و یا چت صوتی با مشتریان بهره ببرید.

بنابراین تصمیم گرفتیم در پست امروز نحوه ثبت‌نام و استفاده از Speech Studio را آموزش می‌دهیم تا بتوانید به کمک آن، سرویس صوتی با صدای انتخابی خودتان ایجاد کنید.

کاربردهای نوآورانه تکنولوژی تبدیل صوت به متن

مقدمات اولیه

سرویس Speech Studio مانند دیگر سرویس‌های ابری و هوش مصنوعی مایکروسافت، از طریق Azure ارائه می‌شود. متاسفانه در حال حاضر سرویس‌های Azure (حتی سرویس‌های رایگان) برای کاربران ایرانی در دسترس نیست. از سوی دیگر برای ایجاد حساب کاربری باید کارت اعتباری بین‌المللی داشته باشید که برای همه ممکن نیست. به همین دلیل ما از سرویس‌های واسطه برای ثبت‌نام استفاده کردیم. با یک جستجوی ساده در اینترنت می‌توانید واسطه‌های زیادی را پیدا کنید که برای شما حساب Azure می‌سازند.

در ابتدای ثبت‌نام مایکروسافت به شما یک هدیه ۲۰۰ دلاری برای استفاده از سرویس‌های خود را می‌دهد. برای اهداف آموزشی و کاربری شخصی این ۲۰۰ دلار کافی است، اما اگر نیاز به اعتبار بیشتر داشتید، شرکت‌های واسطه می‌توانند حساب شما را شارژ کنند.

بعد از این که واسطه خودتان را انتخاب و حساب Azure را سفارش دادید، یک ایمیل با مضمون اطلاعات حساب کاربری خودتان دریافت می‌کنید. توجه داشته باشید که برای استفاده از این سرویس نباید با IP ایران وارد شوید. هرچند با تصویب قوانین جدید در جهت برداشته شدن تحریم‌های خدمات ابری و پیام‌رسانی کورسوی امیدی برای کاربران ایرانی وجود دارد، اما تا آن موقع برای اطمینان از IP خارج از ایران برای این کار استفاده کنید.

ورود به حساب Speech Studio

پس از دریافت اطلاعات حساب کاربری، می توانید به آدرس زیر مراجعه کرده و وارد حساب خودتان بشوید.

https://speech.microsoft.com/

پس از ورود به حساب، با محیط زیر رو‌به‌رو می‌شوید:

البته چون هنوز پروژه‌ای ایجاد نکرده‌اید، در قسمت Recent Custom Projects چیزی مشاهده نمی‌کنید

در این صفحه می‌توانید اطلاعات لازم برای استفاده از سرویس را بخوانید و نمونه صداهای تولیدشده توسط Speech Studio را بشنوید. در حال حاضر مایکروسافت برای آموزش هوش مصنوعی دو طرح ارائه می‌دهد:

طرح Lite
طرح Pro

تفاوت‌های طرح‌های پرو و لایت

طرح لایت به شما اجازه می دهد تا حداکثر ۵۰ نمونه به هوش مصنوعی بدهید. در طرح پرو امکان ارائه حداکثر ۲۰۰۰ نمونه صدا وجود دارد. جدول زیر تفاوت‌های این دو طرح را به اختصار نشان می‌دهد:

طرح Pro	طرح Lite
بین ۳۰۰ تا ۲۰۰۰ نمونه قبول می‌کند	بین ۲۰ تا ۵۰ نمونه قبول می‌کند
بین ۲۰ تا ۴۰ ساعت برای آموزش نیاز دارد	کمتر از یک ساعت برای آموزش نیاز دارد
امکان مشخص کردن مدل‌ها مختلف صحبت را دارد (برای مثال غمگین، خوشحال و…)	امکان مشخص کردن مدل‌های مختلف صدا را ندارد
پشتیبانی از ۵۰ زبان	از ۱۳ زبان پشتیبانی می‌کند

نکته مهم دیگر این است که برای استفاده از طرح Pro از ابتدا باید قرارداد استفاده اخلاقی از هوش مصنوعی مایکروسافت را پر کنید. در این قرارداد اطلاعات شخصی از جمله ایمیل کاری، آدرس و… از شما خواسته شده و در انتها باید تعهد دهید که از این سرویس برای اهداف کاری و شخصی که منافاتی با امنیت عمومی ندارد بهره ببرید.

طرح Pro برای شرکت‌ها و سازمان های بزرگ و یا تولیدکنندگان محتوای حرفه‌ای مناسب است و برای ضبط صداهای نمونه باید از میکروفون‌های استودیویی با کیفیت بالا استفاده کنید.

اما در طرح Lite برای آموزش هوش مصنوعی نیازی به پر کردن قرارداد نیست (هرچند باز هم برای استقرار و استفاده از سرویس در کسب‌و‌کار خودتان در نهایت باید آن را امضا کنید) و با هر نوع میکروفونی می‌توانید صدای خودتان را ضبط کنید.

روی Speech Studio در بالای صفحه کلیک کرده و در صفحه بعد، تا انتهای صفحه اسکرول و گزینه Try Lite project را انتخاب کنید.

ساخت پروژه

پس از کلیک روی دکمه Try Lite project، به صفحه ساخت پروژه هدایت می‌شوید. روی گزینه ساخت پروژه در بالای صفحه کلیک کنید تا پنجره پروژه برای شما باز شود.

در این پنجره حساب خودتان را انتخاب و در ادامه ریسورس پروژه را انتخاب کنید. اگر از قبل ریسورس نداشته باشید، از شما خواسته می شود تا یک ریسورس مربوط به سرویس‌های صوتی ایجاد کنید. پس از ایجاد ریسورس، پروژه شما ایجاد شده و می‌توانید نمونه‌ها را وارد کنید.

برای وارد کردن نمونه‌ها، باید یک‌سری جملات از پیش تعیین شده را با استفاده از میکروفون بخوانید. بعد از خواندن هر جمله و در صورت تایید آن (سبز شدن تیک کنار فایل صوتی) می‌توانید به سراغ متن بعدی بروید.

پس از این که نمونه‌ها آماده شد، می‌توانید به مرحله بعد بروید.

نمایش معجزه

در تب Train AI روی گزینه آموزش کلیک کنید. پیامی مبنی بر شروع آموزش و زمان تخمینی به شما نمایش داده می‌شود. همان‌طور که گفتیم، این زمان زیر یک ساعت است.

پس از اتمام آموزش، صفحه نتیجه به شما نمایش داده می‌شود. در این صفحه تعدادی متن به همراه دکمه اجرای فایل صوتی وجود دارد. روی دکمه‌ها که کلیک کنید، متن‌ها با صدای خودتان که توسط هوش مصنوعی تقلید شده، خوانده می‌شوند. کیفیت صدا و لهجه در طرح Lite بسیار خوب بوده و برای بیشتر موارد کافی است. در طرح Lite برای هر ساعت صدای تولید شده هزینه‌ای معادل ۰.۸ دلار در نظر گرفته شده است. هزینه‌های پیاده‌سازی اما به طور جداگانه محاسبه شده و بر مبنای میزان استفاده از حساب شما کسر می‌شود.

چرا این سرویس؟

این سرویس به طرو مجزا و یا همراه با سرویس‌های دیگر می‌توانند پتانسیل‌های کشف‌نشده کسب‌و‌کارها را به طرز شگفت‌آوری نمایش دهند. برای مثال با کمک سرویس صدای شخصی‌سازی شده در کنار یک چت‌بات، می‌توانید متن‌هایی که به کمک چت‌بات منتشر شده را به صوت تبدیل کرده و از این طریق با کاربران تعامل کنید. همچنین تولید‌کنندگان محتوا می‌توانند با کمک این سرویس محتوای خود را به زبان‌های مختلف و با صدای خودشان منتشر کرده و به این ترتیب طیف مخاطبان خود را گسترش دهند. شما چه کاربردهای دیگری برای این سرویس به نظرتان می‌رسد؟