آخرین فناوری NVIDIA صداهای هوش مصنوعی را گویاتر و واقعی تر می کند
صداهای Alexa ، Google Assistant و دیگر دستیارهای AI بسیار جلوتر از دستگاه های GPS قدیمی هستند ، اما هنوز فاقد ریتم ، صدا و سایر ویژگی هایی هستند که باعث می شوند گفتار به نظر انسان برسد.
NVIDIA از تحقیقات و ابزارهای جدیدی رونمایی کرده است که می تواند با آموزش سیستم هوش مصنوعی با صدای خود ، این ویژگی های طبیعی گفتار را به تصویر بکشد. تیم تحقیقاتی تبدیل متن به گفتار انویدیا برای بهبود ترکیب صدای هوش مصنوعی مدلی به نام RAD-TTS را توسعه داده که میتواند واقعگرایانهترین آواتارهای ممکن را بسازد.
این سیستم میگذارد افراد مدلهای تبدیل متن به گفتار را با ویژگیهای مختلف صدای خود آموزش دهند. یکی از قابلیتهای مدل RAD-TTS تبدیل صداست که به کاربر اجازه میدهد کلمات گوینده را با صدای شخص دیگری ادا کند. این رابط کنترل مناسب گام، طول و انرژی صدا را در اختیار فرد قرار میدهد.
محققان انویدیا با استفاده از این فناوری برای سری ویدیوهای I Am AI روایتی صوتی ساختهاند که بیش از هر زمان دیگری شبیه صدای انسانهای واقعی است. هدف از این کار دستیابی به روایتی بود که به لحن و سبک نمایش ویدیو نزدیک باشد.
اکثر ویدیوهایی که با هوش مصنوعی روایت میشوند فعلا فاقد چنین کیفیتی هستند. ویدیوی حاضر نیز هنوز کمی رباتی به نظر میرسد اما بهتر از تمام هوش مصنوعیهایی است که تاکنون با آنها مواجه بودهاید.
انویدیا میگوید: «تهیهکننده ویدیویی ما با این رابط میتواند خودش سناریوی ویدیو را ضبط کرده و بعد با کمک هوش مصنوعی صدا را به راوی زن تبدیل کند. سپس امکان دستیابی صدا و استفاده از حالتهای حسی مختلف، تاکید روی کلمات و اصلاح سرعت روایت در دسترس قرار میگیرد تا بهترین لحن روایی ایجاد شود.»
انویدیا نتایج تحقیقات خود را به صورت متن باز در اختیار کسانی قرار داده که مایل به انجام آزمایشهای مختلف در این حوزهاند.
این شرکت میگوید: «شماری از این مدلها با هزاران ساعت صدا در سیستمهای NVIDIA DGX آموزش داده شدهاند. توسعهدهندگان میتوانند مدلهای مختلف را برای کاربردهای مختلف بهینهسازی کرده و سرعت یادگیری را با پردازندههای گرافیکی انویدیا Tensor Core افزایش دهند.»
223000613.026