- یکی از جذاب ترین مدل های هوش مصنوعی مدل های تبدیلی است برای مثال ورودی متنی، تبدیل به صدا یا تصویر شود. در این نوشتار به معرفی یکی از همین مدل ها میپردازیم. موسسه resemble ai مدل متن باز خود با نام Chatterbox که یک مدل متن به صدا میباشد را معرفی نمود. این مدل با ویژگی کنترل بر شدت احساسات در گفتار میتواند صدایی نزدیک تر به واقعیت تولید کند. شما ممکن است بر روی ویدئو، بازی و یا عامل های هوش مصنوعی کار کنید و این مدل میتواند به کار شما حیات بخشد.
- استفاده از مدرن ترین مدل zeroshot متن به صوت
- استفاده از لایه استخراج ویژگی (backbone) Llama 0.5B
- کنترل منحصر به فرد بر میزان شدت و اغراق گفتار
- خروجی بسیار پایدار و هم تراز
- آموزش دیده بر روی نیم میلیون ساعت داده تمیز شده
- ثبت هویت در خروجی (watermark)
- تبدیل آسان متن به صدا
- گستردگی زبانها: ۲۳ زبان پشتیبانی شده از زمان راهاندازی.
- کنترل بیان: تنظیم دقیق ارائه با تنظیمات احساسات و شدت.
- قابلیت اطمینان سازمانی: استنتاج فوقالعاده پایدار و واترمارک داخلی.
چند نمونه صوت تولید شده
گفتار رسا
کنترل لهجه
قابلیت کنترل مبتنی بر متن
حساس به حروف بزرگ و کوچک
مقایسه با سایر مدلها
| Chatterbox | ElevenLabs | OpenAI TTS | Azure TTS | |
|---|---|---|---|---|
| منبع باز | ✓ MIT License | ✗ بسته | ✗ بسته | ✗ بسته |
| چندزبانه | ✓ بله | ✗ محدود | ✗ محدود | ✗ محدود |
| کنترل احساس | ✓ منحصر به فرد | ✗ محدود | ✗ ندارد | ✗ پایه ای |
| شبیهسازی صدا | ✓ Zero-shot | ✓ نسخه پریمیوم | ✗ ندارد | ✗ محدود |
| تاخیر | ✓ ~۲۰۰ms | به طور میانگین ۲۰۰ms-۳۰۰ms | ~۳۰۰ms | ~۳۰۰ms |
| استقرار در محل | ✓ کنترل کامل | ✗ فقط حالت ابری | ✗ فقط حالت ابری | ✗ فقط حالت ابری |
| هزینه | ✓ کاملا رایگان | $0.15/1K chars | $15/1M chars | $24/1M chars |
نکات کلیدی
تنظیمات
با استفاده از پارامترهای exaggeration و cfg میتوان روی خروجی اثر گذاشت. برای اکثر متون مقادیر exaggeration=0.5 و cfg=0.5 خروجی مناسبی تولید میکند.
افزایش exaggeration باعث افزایش سرعت گفتار و کاهش cfgموجب سنجیده تر بیان شدن کلمات میشود از این رو میتوان با تنظیم exaggeration در حدود 7/0 و کاهش cfg به حدود 3/0 میتوان صوتی دراماتیک تولید کرد.
نصب
برای نصب با استفاده از pip برای پایتون میتوانید دستور زیر را اجرا کرده و در محیط پایتون خود نصب کنید

استفاده از مدل
با استفاده از کد پایتون زیر میتوانید از مدل استفاده کنید
import torch
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS
# Patch torch.load globally to force CPU
_torch_load = torch.load
def cpu_load(*args, **kwargs):
if “map_location” not in kwargs:
kwargs[“map_location”] = torch.device(“cpu”)
return _torch_load(*args, **kwargs)
torch.load = cpu_load
model = ChatterboxTTS.from_pretrained(device=“cpu”)
text = “Hello from the other side”
wav = model.generate(text)
ta.save(“test.wav”, wav, model.sr)
در ابتدای کد در خطوط اول تا سوم کتابخانه های مورد نیازی فراخوانی شده است
با استفاده تابع cpu_load برنامه بر روی CPU اجرا میشود بنابراین اگر میخواهید برنامه بر روی GPU اجرا شود میتوانید خط بعد از تابع را کامنت کنید.
سپس متن مد نظر را برای متغیر text تعریف نمایید و کد را اجرا نمایید.
پس از اجرای کد، مدل بارگذاری میشود و بر اساس متن انگلیسی تعریف شده صوت تولید میگردد.
در خط انتهایی بر اساس پارامتر اول که محل و نام ذخیره خروجی است صوت ذخیره میگردد.
جمع بندی
تقاضا برای مدل های تبدیل متن به صوت چندزبانه به شدت در حال افزایش است. برندها، مربیان و توسعهدهندگان دیگر محدود به هوش مصنوعی صوتی فقط انگلیسی نیستند. کاربران انتظار دارند برنامهها و عوامل به نظر انسانی برسند، به زبان مادری خود صحبت کنند و محتوا را با لحن و احساسات اصیل ارائه دهند.
چترباکس چندزبانه برای پاسخگویی به این تقاضا ساخته شده است. این نرمافزار ترکیبی از:
چه در حال طراحی یک عامل هوش مصنوعی صوتی برای پشتیبانی مشتری یا یک برنامه یادگیری زبان یا یک تجربه بازی در سطح جهانی باشید، چترباکس چندزبانه ابزارهایی را برای ساخت صداهایی که در همه جا طنینانداز میشوند، در اختیار شما قرار میدهد.