در هفتههای اخیر ChatGPT دنیای اینترنت را دگرگون کرده است. هر روزه میلیونها نفر در سراسر جهان سعی میکنند از این سرویس برای اهداف خود استفاده کنند و فضای وب از مقالههایی که کاربردهای خلاقانه و هوشمندانه این سرویس را آموزش میدهند، پر شده است. اما معرفی سرویس ChatGPT توسط شرکت OpenAI، یک اثر جانبی دیگر نیز داشت؛ توجه بیشتر به حوزه هوش مصنوعی. همین موضوع باعث شد تا بعد از کمی سر و کله زدن با ChatGPT، به این فکر کنیم که آیا میتوان از ترکیب این سرویس با سرویسهای دیگر هوش مصنوعی برای انجام یک وظیفه خاص استفاده کرد؟
بعد از کمی جستجو و آشنایی با سرویسهای مختلف، به سرویس Speech Studio مایکروسافت رسیدیم. این سرویس به شما اجازه میدهد تا یک هوش مصنوعی را برای تقلید صدای خودتان آموزش دهید و از آن برای کارهای مختلف مانند تبدیل متن به صدا و یا چت صوتی با مشتریان بهره ببرید.
بنابراین تصمیم گرفتیم در پست امروز نحوه ثبتنام و استفاده از Speech Studio را آموزش میدهیم تا بتوانید به کمک آن، سرویس صوتی با صدای انتخابی خودتان ایجاد کنید.
مقدمات اولیه
سرویس Speech Studio مانند دیگر سرویسهای ابری و هوش مصنوعی مایکروسافت، از طریق Azure ارائه میشود. متاسفانه در حال حاضر سرویسهای Azure (حتی سرویسهای رایگان) برای کاربران ایرانی در دسترس نیست. از سوی دیگر برای ایجاد حساب کاربری باید کارت اعتباری بینالمللی داشته باشید که برای همه ممکن نیست. به همین دلیل ما از سرویسهای واسطه برای ثبتنام استفاده کردیم. با یک جستجوی ساده در اینترنت میتوانید واسطههای زیادی را پیدا کنید که برای شما حساب Azure میسازند.
در ابتدای ثبتنام مایکروسافت به شما یک هدیه ۲۰۰ دلاری برای استفاده از سرویسهای خود را میدهد. برای اهداف آموزشی و کاربری شخصی این ۲۰۰ دلار کافی است، اما اگر نیاز به اعتبار بیشتر داشتید، شرکتهای واسطه میتوانند حساب شما را شارژ کنند.
بعد از این که واسطه خودتان را انتخاب و حساب Azure را سفارش دادید، یک ایمیل با مضمون اطلاعات حساب کاربری خودتان دریافت میکنید. توجه داشته باشید که برای استفاده از این سرویس نباید با IP ایران وارد شوید. هرچند با تصویب قوانین جدید در جهت برداشته شدن تحریمهای خدمات ابری و پیامرسانی کورسوی امیدی برای کاربران ایرانی وجود دارد، اما تا آن موقع برای اطمینان از IP خارج از ایران برای این کار استفاده کنید.
ورود به حساب Speech Studio
پس از دریافت اطلاعات حساب کاربری، می توانید به آدرس زیر مراجعه کرده و وارد حساب خودتان بشوید.
پس از ورود به حساب، با محیط زیر روبهرو میشوید:
در این صفحه میتوانید اطلاعات لازم برای استفاده از سرویس را بخوانید و نمونه صداهای تولیدشده توسط Speech Studio را بشنوید. در حال حاضر مایکروسافت برای آموزش هوش مصنوعی دو طرح ارائه میدهد:
- طرح Lite
- طرح Pro
تفاوتهای طرحهای پرو و لایت
طرح لایت به شما اجازه می دهد تا حداکثر ۵۰ نمونه به هوش مصنوعی بدهید. در طرح پرو امکان ارائه حداکثر ۲۰۰۰ نمونه صدا وجود دارد. جدول زیر تفاوتهای این دو طرح را به اختصار نشان میدهد:
طرح Pro | طرح Lite |
بین ۳۰۰ تا ۲۰۰۰ نمونه قبول میکند | بین ۲۰ تا ۵۰ نمونه قبول میکند |
بین ۲۰ تا ۴۰ ساعت برای آموزش نیاز دارد | کمتر از یک ساعت برای آموزش نیاز دارد |
امکان مشخص کردن مدلها مختلف صحبت را دارد (برای مثال غمگین، خوشحال و…) | امکان مشخص کردن مدلهای مختلف صدا را ندارد |
پشتیبانی از ۵۰ زبان | از ۱۳ زبان پشتیبانی میکند |
نکته مهم دیگر این است که برای استفاده از طرح Pro از ابتدا باید قرارداد استفاده اخلاقی از هوش مصنوعی مایکروسافت را پر کنید. در این قرارداد اطلاعات شخصی از جمله ایمیل کاری، آدرس و… از شما خواسته شده و در انتها باید تعهد دهید که از این سرویس برای اهداف کاری و شخصی که منافاتی با امنیت عمومی ندارد بهره ببرید.
طرح Pro برای شرکتها و سازمان های بزرگ و یا تولیدکنندگان محتوای حرفهای مناسب است و برای ضبط صداهای نمونه باید از میکروفونهای استودیویی با کیفیت بالا استفاده کنید.
اما در طرح Lite برای آموزش هوش مصنوعی نیازی به پر کردن قرارداد نیست (هرچند باز هم برای استقرار و استفاده از سرویس در کسبوکار خودتان در نهایت باید آن را امضا کنید) و با هر نوع میکروفونی میتوانید صدای خودتان را ضبط کنید.
روی Speech Studio در بالای صفحه کلیک کرده و در صفحه بعد، تا انتهای صفحه اسکرول و گزینه Try Lite project را انتخاب کنید.
ساخت پروژه
پس از کلیک روی دکمه Try Lite project، به صفحه ساخت پروژه هدایت میشوید. روی گزینه ساخت پروژه در بالای صفحه کلیک کنید تا پنجره پروژه برای شما باز شود.
در این پنجره حساب خودتان را انتخاب و در ادامه ریسورس پروژه را انتخاب کنید. اگر از قبل ریسورس نداشته باشید، از شما خواسته می شود تا یک ریسورس مربوط به سرویسهای صوتی ایجاد کنید. پس از ایجاد ریسورس، پروژه شما ایجاد شده و میتوانید نمونهها را وارد کنید.
برای وارد کردن نمونهها، باید یکسری جملات از پیش تعیین شده را با استفاده از میکروفون بخوانید. بعد از خواندن هر جمله و در صورت تایید آن (سبز شدن تیک کنار فایل صوتی) میتوانید به سراغ متن بعدی بروید.
پس از این که نمونهها آماده شد، میتوانید به مرحله بعد بروید.
نمایش معجزه
در تب Train AI روی گزینه آموزش کلیک کنید. پیامی مبنی بر شروع آموزش و زمان تخمینی به شما نمایش داده میشود. همانطور که گفتیم، این زمان زیر یک ساعت است.
پس از اتمام آموزش، صفحه نتیجه به شما نمایش داده میشود. در این صفحه تعدادی متن به همراه دکمه اجرای فایل صوتی وجود دارد. روی دکمهها که کلیک کنید، متنها با صدای خودتان که توسط هوش مصنوعی تقلید شده، خوانده میشوند. کیفیت صدا و لهجه در طرح Lite بسیار خوب بوده و برای بیشتر موارد کافی است. در طرح Lite برای هر ساعت صدای تولید شده هزینهای معادل ۰.۸ دلار در نظر گرفته شده است. هزینههای پیادهسازی اما به طور جداگانه محاسبه شده و بر مبنای میزان استفاده از حساب شما کسر میشود.
چرا این سرویس؟
این سرویس به طرو مجزا و یا همراه با سرویسهای دیگر میتوانند پتانسیلهای کشفنشده کسبوکارها را به طرز شگفتآوری نمایش دهند. برای مثال با کمک سرویس صدای شخصیسازی شده در کنار یک چتبات، میتوانید متنهایی که به کمک چتبات منتشر شده را به صوت تبدیل کرده و از این طریق با کاربران تعامل کنید. همچنین تولیدکنندگان محتوا میتوانند با کمک این سرویس محتوای خود را به زبانهای مختلف و با صدای خودشان منتشر کرده و به این ترتیب طیف مخاطبان خود را گسترش دهند. شما چه کاربردهای دیگری برای این سرویس به نظرتان میرسد؟