سلامت و دانش

شبیه‌سازی صدا با هوش مصنوعی تنها در ۳ ثانیه

محققان مایکروسافت مدل جدیدی از هوش مصنوعی تبدیل متن به گفتار به نام VALL-E معرفی کرده اند که می تواند صدای افراد را با یک نمونه صوتی سه ثانیه ای از صدای آنها شبیه سازی کند. پس از یادگیری یک صدای خاص، مدل می تواند آن را با هر آنچه شما می گویید مطابقت دهد و این کار را به گونه ای انجام دهد که لحن احساسی گوینده اصلی حفظ شود.

سازندگان VALL-E حدس می‌زنند که این مدل هوش مصنوعی می‌تواند برای برنامه‌های کاربردی تبدیل متن به گفتار با کیفیت بالا یا برنامه‌های ویرایش گفتار که در آن ضبط‌های صدای افراد قابل ویرایش است، استفاده شود. همچنین می توان از این مدل در ترکیب با سایر مدل های هوش مصنوعی مانند GPT-3 برای تولید محتوای صوتی استفاده کرد.

مایکروسافت VALL-E را “مدل زبان کدک عصبی” می نامد و از کدک صوتی EnCodec استفاده می کند که متا در اکتبر 2022 اعلام کرد. این فناوری اساساً وضعیت صدای افراد را تجزیه و تحلیل می کند و اطلاعات به دست آمده را به اجزای فردی به نام توکن تبدیل می کند. سپس، از داده های آموزشی برای مطابقت با آنچه در مورد صدای فرد می داند استفاده می کند. مایکروسافت می گوید:

برای سنتز گفتار شخصی، VALL-E سیگنال صوتی را از صدای سه ثانیه ای شخص مورد نظر ضبط می کند و در نهایت از آن برای سنتز شکل موج نهایی با رمزگشایی کدک عصبی مناسب استفاده می کند.

مایکروسافت در حال آموزش قابلیت های سنتز گفتار VALL-E در کتابخانه صوتی LibriLight Meta است. این فرآیند شامل 60000 ساعت سخنرانی انگلیسی از بیش از 7000 سخنران است که بیشتر آن از کتاب های صوتی عمومی LibriVox گرفته شده است. برای اینکه VALL-E نتایج خوبی ایجاد کند، صدای نمونه سه ثانیه ای باید دقیقاً با صدای داده تمرین مطابقت داشته باشد.

مایکروسافت ده ها نمونه صوتی مدل هوش مصنوعی را در وب سایت نمونه های VALL-E در دسترس قرار داده است. در میان نمونه‌های او، Speaker Prompt یک صدای سه ثانیه‌ای است که برای تقلید به VALL-E داده می‌شود. در این وب سایت، یک نمونه صوتی سه ثانیه ای از همان سخنران که عبارات خاصی را بیان می کند، برای اهداف آزمایشی است. Baseline نمونه مرکزی است که با روش سنتز متن به گفتار ارائه می شود و مثال VALL-E خروجی تولید شده توسط هوش مصنوعی را ارائه می دهد.

به گفته ArsTechnica، هنگامی که از VALL-E برای تولید نتایج استفاده می شد، محققان به سادگی یک نمونه سه ثانیه ای از Speaker Prompt و رشته متنی که می خواستند با آن صحبت کنند به VALL-E دادند. در برخی موارد، این دو نمونه بسیار شبیه به هم هستند. برخی از این نتایج هوش مصنوعی به نظر می رسد که توسط رایانه تولید شده اند، اما برخی دیگر این پتانسیل را دارند که با گفتار انسان اشتباه گرفته شوند، که واقعاً هدف اصلی مدل های هوش مصنوعی است.

VALL-E علاوه بر حفظ صدای گوینده و لحن احساسی، می تواند محیط صوتی نمونه های صوتی را نیز شبیه سازی کند. به عنوان مثال، اگر از یک تماس تلفنی نمونه برداری شود، خروجی صدا ویژگی های صوتی و فرکانس تماس تلفنی را در خروجی سنتز شده شبیه سازی می کند، و نمونه های مایکروسافت نشان می دهد که VALL-E قادر است دامنه تصادفی مورد استفاده در تولید صدا را تغییر دهد. روند. . برای ایجاد لحن

شاید به دلیل توانایی VALL-E برای تحریک بزهکاری و کلاهبرداری، مایکروسافت کد خود را برای آزمایش توسط دیگران در دسترس قرار نداده است. بنابراین در حال حاضر امکان آزمایش قابلیت های این هوش مصنوعی وجود ندارد. به نظر می رسد محققان از آسیب های اجتماعی بالقوه ای که این فناوری می تواند ایجاد کند آگاه هستند. در قسمت پایانی این مقاله آمده است:

از آنجا که گفتار تولید شده با VALL-E می تواند هویت گوینده را حفظ کند، ممکن است خطرات بالقوه ای در سوء استفاده از مدل وجود داشته باشد، مانند جعل صدا یا جعل هویت از گویندگان خاص. برای کاهش خطر، می توان مدل های تشخیص را برای تمایز توسعه داد. این مشخص می کند که آیا کلید صوتی با VALL-E ایجاد شده است یا خیر. ما همچنین از اصول هوش مصنوعی مایکروسافت برای توسعه مدل بیشتر استفاده خواهیم کرد.

227227

دکمه بازگشت به بالا