تیم تحقیقاتی Audiocraft از شرکت متا بهتازگی یک مدل هوش مصنوعی متنباز به نام MusicGen را منتشر کرده است که شبیه ChatGPT با ورودیهای متنی کار میکند، اما از آنها آهنگ میسازد. این مدل حتی قادر است نمونهای از یک آهنگ را دریافت کند و آن را مطابق توصیف کاربر تغییر دهد.
به گزارش وبسایت Decoder، با استفاده از MusicGen میتوانید سبک موسیقی مدنظر خود را توصیف کنید یا بخشی از یک آهنگ را به نرمافزار بدهید و روی دکمه Generate کلیک کنید. پس از چند ثانیه (در یک مثال پس از 160 ثانیه) به آهنگ جدیدی میرسید که مطابق توصیف متنی شما ساخته شده یا تغییر پیدا کرده است.
دموی این مدل یادگیری عمیق که در سایت Hugging Face فیسبوک قرار دارد، به شما اجازه میدهد آهنگ مدنظر خود را توصیف کنید. برای مثال، میتوانید بگویید آهنگی شبیه به آهنگهای دهه 1980 میلادی میخواهم که درامهای سنگینی در پسزمینه داشته باشد.
هوش مصنوعی متا با 20 هزار ساعت موسیقی آموزش داده شده است
متا برای توسعه این مدل هوش مصنوعی از 20 هزار ساعت موسیقی مجوزدار شامل 10 هزار قطعه آهنگ از پایگاه داده داخلی خود بههمراه دادههای سایتهایی مثل Shutterstock و Pond5 استفاده کرده است. این شرکت برای بالابردن سرعت فرایند آموزش، از توکنساز صوتی 32 کیلوهرتزی EnCodec استفاده کرده تا تکههای کوچکتری از آهنگها را با قابلیت پردازش همزمان بسازد.
«احسان خالق»، مهندس یادگیری ماشینی Hugging Face میگوید: «MusicGen برخلاف متدهای موجود نظیر MusicLM به بازنمایی معنایی با قابلیت نظارت بر خود نیاز ندارد [و] بهازای هر ثانیه صدا فقط 50 گام پسرونده خودکار دارد.»
همانطور که گفتیم، MusicGen متنباز است و حتی میتواند برای تولید آهنگهای تجاری استفاده شود. این نرمافزار نشان میدهد که توسعه هوش مصنوعی با چه سرعتی درحال پیشرفتن است و مدلهای یادگیری عمیق چگونه میتوانند بازار موسیقی را تهدید کنند. گوگل هم حدود یک ماه پیش مدل MusicLM را معرفی کرد، اما بهنظر میرسد که MusicGen عملکرد بهتری دارد.