مدل هوش مصنوعی متن‌باز جدید متا می‌تواند از متن، آهنگ بسازد

23 خرداد 1402
ارسال توسط ادمین

23 خرداد

تیم تحقیقاتی Audiocraft از شرکت متا به‌تازگی یک مدل هوش مصنوعی متن‌باز به نام MusicGen را منتشر کرده است که شبیه ChatGPT با ورودی‌های متنی کار می‌کند، اما از آن‌ها آهنگ می‌سازد. این مدل حتی قادر است نمونه‌ای از یک آهنگ را دریافت کند و آن را مطابق توصیف کاربر تغییر دهد.

به گزارش وب‌سایت Decoder، با استفاده از MusicGen می‌توانید سبک موسیقی مدنظر خود را توصیف کنید یا بخشی از یک آهنگ را به نرم‌افزار بدهید و روی دکمه Generate کلیک کنید. پس از چند ثانیه (در یک مثال پس از 160 ثانیه) به آهنگ جدیدی می‌رسید که مطابق توصیف متنی شما ساخته شده یا تغییر پیدا کرده است.

دموی این مدل یادگیری عمیق که در سایت Hugging Face فیسبوک قرار دارد، به شما اجازه می‌دهد آهنگ مدنظر خود را توصیف کنید. برای مثال، می‌توانید بگویید آهنگی شبیه به آهنگ‌های دهه 1980 میلادی می‌خواهم که درام‌های سنگینی در پس‌زمینه داشته باشد.

هوش مصنوعی متا با 20 هزار ساعت موسیقی آموزش داده شده است

متا برای توسعه این مدل هوش مصنوعی از 20 هزار ساعت موسیقی مجوزدار شامل 10 هزار قطعه آهنگ از پایگاه داده داخلی خود به‌همراه داده‌های سایت‌هایی مثل Shutterstock و Pond5 استفاده کرده است. این شرکت برای بالابردن سرعت فرایند آموزش، از توکن‌ساز صوتی 32 کیلوهرتزی EnCodec استفاده کرده تا تکه‌های کوچک‌تری از آهنگ‌ها را با قابلیت پردازش هم‌زمان بسازد.

«احسان خالق»، مهندس یادگیری ماشینی Hugging Face می‌گوید: «MusicGen برخلاف متدهای موجود نظیر MusicLM به بازنمایی معنایی با قابلیت نظارت بر خود نیاز ندارد [و] به‌ازای هر ثانیه‌ صدا فقط 50 گام پس‌رونده خودکار دارد.»

همان‌طور که گفتیم، MusicGen متن‌باز است و حتی می‌تواند برای تولید آهنگ‌های تجاری استفاده شود. این نرم‌افزار نشان می‌دهد که توسعه هوش مصنوعی با چه سرعتی درحال پیش‌رفتن است و مدل‌های یادگیری عمیق چگونه می‌توانند بازار موسیقی را تهدید کنند. گوگل هم حدود یک ماه پیش مدل MusicLM را معرفی کرد، اما به‌نظر می‌رسد که MusicGen عملکرد بهتری دارد.