DeepZen از هوش مصنوعی برای تولید کتاب های صوتی استفاده می کند

شماره :
41571
آخرین به روزرسانی :
سه شنبه 1402/06/28 ساعت 16:38
دسته بندی

DeepZen از هوش مصنوعی برای تولید کتاب های صوتی استفاده می کند

سالانه تقریباً 1،000،000 کتاب در ایالات متحده منتشر می شود ، اما فقط حدود 40،000 کتاب به کتاب های صوتی تبدیل می شود که عمدتا به دلیل هزینه و زمان تولید است.

برای کمک به این روند ، DeepZen ، یک شرکت مستقر در لندن ، و یکی از اعضای برنامه Inception ، انکوباتور راه اندازی NVIDIA ، یک سیستم مبتنی بر یادگیری عمیق ایجاد کرد که می تواند فایل های صوتی کامل کتاب ها را شبیه انسان و مملو از احساسات یجاد کند. تیم با استفاده از پردازنده های گرافیکی NVIDIA P100 و V100 در Google Cloud ، با چارچوب های یادگیری عمیق PyTorch و Tensorflow با سرعت بالا cuDNN الگوریتم های متن به گفتار خود را در مورد هزاران ساعت صحبت گوینده آموزش داد.

پس از آموزش ، سیستم به طور خودکار متن را تجزیه و تحلیل می کند ، آن را به گفتار تبدیل می کند و احساسات لازم را برای هر سطر و کلمه اضافه می کند.

برای نتیجه گیری ، این شرکت موتور استنتاج NVIDIA TensorRT را از NGC روی پردازنده های گرافیکی V100 در ابر خدمات وب آمازون اجرا می کند. توسعه دهندگان شرکت می گویند که قبلاً فقط 4-5 ساعت طول می کشید تا سرور و چارچوب ها راه اندازی شود. با این حال ، با NGC ، این روند به دقیقه کاهش می یابد. این به صرفه جویی در هزینه های محاسبه و همچنین منابع توسعه دهنده گران کمک می کند.

این ابزار می تواند انقلابی در صداگذاری بازی های ویدئویی و صنعت انتشار کتاب های صوتی ایجاد کند.

این سیستم همچنین می تواند به افرادی که نابینا هستند یا از نقص بینایی رنج می برند ، و یا دارای مشکل خواندن هستند کمک کند تادسترسی بیشتری به کتاب ها داشته باشند.

فایل های صوتی ایجاد شده توسط هوش مصنوعی را نیز می توان به راحتی توسط ویرایشگران انسانی از طریق نرم افزار اختصاصی تغییر داد تا احساسات را در سطرها و صفحات خاص از نزدیک منتقل کند.

ناشران همچنین می توانند صداهای مختلفی را که جنسیت و لهجه ها را در نظر می گیرند ، برای تولید نسخه های مختلف یک کتاب انتخاب کنند.

209000714.292

X