آخرین فناوری NVIDIA صداهای هوش مصنوعی را گویاتر و واقعی تر می کند

شماره :

41697

آخرین به روزرسانی :

سه شنبه 1402/06/28 ساعت 16:38

دسته بندی

اخبار

پیوند کوتاه :

http://new.itrc.ac.ir/fa/node/41697

پیوند کوتاه کپی شد

آخرین فناوری NVIDIA صداهای هوش مصنوعی را گویاتر و واقعی تر می کند

صداهای Alexa ، Google Assistant و دیگر دستیارهای AI بسیار جلوتر از دستگاه های GPS قدیمی هستند ، اما هنوز فاقد ریتم ، صدا و سایر ویژگی هایی هستند که باعث می شوند گفتار به نظر انسان برسد.

NVIDIA از تحقیقات و ابزارهای جدیدی رونمایی کرده است که می تواند با آموزش سیستم هوش مصنوعی با صدای خود ، این ویژگی های طبیعی گفتار را به تصویر بکشد. تیم تحقیقاتی تبدیل متن به گفتار انویدیا برای بهبود ترکیب صدای هوش مصنوعی مدلی به نام RAD-TTS را توسعه داده که می‌تواند واقع‌گرایانه‌ترین آواتارهای ممکن را بسازد.

این سیستم می‌گذارد افراد مدل‌های تبدیل متن به گفتار را با ویژگی‌های مختلف صدای خود آموزش دهند. یکی از قابلیت‌های مدل RAD-TTS تبدیل صداست که به کاربر اجازه می‌دهد کلمات گوینده را با صدای شخص دیگری ادا کند. این رابط کنترل مناسب گام، طول و انرژی صدا را در اختیار فرد قرار می‌دهد.

محققان انویدیا با استفاده از این فناوری برای سری ویدیوهای I Am AI روایتی صوتی ساخته‌اند که بیش از هر زمان دیگری شبیه صدای انسان‌های واقعی است. هدف از این کار دستیابی به روایتی بود که به لحن و سبک نمایش ویدیو نزدیک باشد.

اکثر ویدیوهایی که با هوش مصنوعی روایت می‌شوند فعلا فاقد چنین کیفیتی هستند. ویدیوی حاضر نیز هنوز کمی رباتی به نظر می‌رسد اما بهتر از تمام هوش مصنوعی‌هایی است که تاکنون با آن‌ها مواجه بوده‌اید.

انویدیا می‌گوید: «تهیه‌کننده ویدیویی ما با این رابط می‌تواند خودش سناریوی ویدیو را ضبط کرده و بعد با کمک هوش مصنوعی صدا را به راوی زن تبدیل کند. سپس امکان دستیابی صدا و استفاده از حالت‌های حسی مختلف، تاکید روی کلمات و اصلاح سرعت روایت در دسترس قرار می‌گیرد تا بهترین لحن روایی ایجاد شود.»

انویدیا نتایج تحقیقات خود را به صورت متن باز در اختیار کسانی قرار داده که مایل به انجام آزمایش‌های مختلف در این حوزه‌اند.

این شرکت می‌گوید: «شماری از این مدل‌ها با هزاران ساعت صدا در سیستم‌های NVIDIA DGX آموزش داده شده‌اند. توسعه‌دهندگان می‌توانند مدل‌های مختلف را برای کاربردهای مختلف بهینه‌سازی کرده و سرعت یادگیری را با پردازنده‌های گرافیکی انویدیا Tensor Core افزایش دهند.»

223000613.026

نشانی	تهران ، انتهای خیابان کارگر شمالی
کد پستی	1439955956
تلفن تماس	84977300
نمابر	88630351
تلفن گویا	85666
واحد فناوري اطلاعات	88009970
پست الکترونیک	info@itrc.ac.ir
ارتباط با مديران

آخرین فناوری NVIDIA صداهای هوش مصنوعی را گویاتر و واقعی تر می کند

آخرین فناوری NVIDIA صداهای هوش مصنوعی را گویاتر و واقعی تر می کند

درباره پژوهشگاه

تماس با ما

پیوندهای مرتبط

دسترسی سریع