NeuTTS Air سبک ولی قدرتمند در تبدیل متن به صوت

هوش مصنوعی صوتی پیشرفته مدت زیادی است که پشت واسط برنامه نویسی های (API) وب محبوس شده است. NeuTTS Air اولین مدل زبان گفتاری TTS(Text To Speech) فوق‌العاده واقع‌گرایانه روی دستگاه در جهان با شبیه‌سازی فوری صدا است. NeuTTS Air که بر اساس یک پایه (backbone) مدل LLM 0.5B ساخته شده است، گفتار طبیعی، عملکرد در زمان واقعی، امنیت داخلی و شبیه‌سازی گفتاری را به دستگاه محلی شما می‌آورد و دسته جدیدی از عوامل صوتی تعبیه‌شده، دستیاران، اسباب‌بازی‌ها و برنامه‌های ایمن از نظر انطباق را ارائه می‌دهد.

ویژگی‌های کلیدی

🗣 بهترین واقع‌گرایی در کلاس خود با توجه به اندازه‌اش – صداهای طبیعی و فوق‌العاده واقع‌گرایانه‌ای تولید می‌کند که صدای انسان را تداعی می‌کنند.
📱بهینه‌سازی شده برای پیاده‌سازی روی دستگاه – ارائه شده در قالب GGML، آماده اجرا روی تلفن‌ها، لپ‌تاپ‌ها یا حتی Raspberry Pi
👫شبیه‌سازی فوری صدا – سخنگوی خود را با تنها ۳ ثانیه صدا بسازید.
🚄معماری کدک + LM ساده که بر پایه مدل ۰.۵ گیگابایت ساخته شده است – نقطه مطلوب بین سرعت، اندازه و کیفیت برای برنامه‌های دنیای واقعی

جزئیات مدل

NeuTTS Air بر اساس Qwen 0.5B ساخته شده است. یک مدل زبانی سبک اما توانمند که برای درک و تولید متن بهینه شده است. همچنین ترکیبی قدرتمند از فناوری‌های طراحی شده برای کارایی و کیفیت:

کدک صوتی: NeuCodec کدک صوتی عصبی اختصاصی که با استفاده از یک کتاب کد(codebook) واحد، کیفیت صدای استثنایی را در نرخ بیت‌های پایین به دست می‌آورد.
فرمت: موجود در قالب GGML برای استنتاج کارآمد روی دستگاه
مسئولیت: خروجی‌های واترمارک شده
سرعت استنتاج: تولید بلادرنگ در دستگاه‌های میان‌رده
مصرف برق: بهینه شده برای دستگاه‌های موبایل و تعبیه‌شده(embedded system)

نحوه استفاده

مخزن گیت با دستور زیر بر روی سیستم خود بیاورید

git clone https://github.com/neuphonic/neutts-air.git
cd neuttsair

نصب espeak (وابستگی مورد نیاز دارد)

برای آموزش نصب espeak به لینک زیر مراجعه کنید:

https://github.com/espeak-ng/espeak-ng/blob/master/docs/guide.md

# Mac OS
brew install espeak

# Ubuntu/Debian
sudo apt install espeak

# Arch Linux
paru -S aur/espeak

نصب وابستگی های پایتون

فایل الزامات شامل وابستگی‌های مورد نیاز برای اجرای مدل با PyTorch است. هنگام استفاده از رمزگشای ONNX یا مدل GGML، برخی از وابستگی‌ها (مانند PyTorch) دیگر مورد نیاز نیستند.

این استفاده با پایتون نسخه‌های بالاتر از ۳.۱۱ سازگار و آزمایش شده است.

pip install -r requirements.txt

مثال ساده از اجرا

اسکریپت پایه ای زیر را برای ترکیب گفتار اجرا کنید:

python -m examples.basic_example \
  --input_text "My name is Dave, and um, I'm from London" \
  --ref_audio samples/dave.wav \
  --ref_text samples/dave.txt

برای مشخص کردن یک مخزن مدل خاص برای backbone یا کدک، آرگومان –backbone را اضافه کنید. backbone های موجود در مجموعه NeuTTS-Air huggingface فهرست شده‌اند.

چندین مثال از جمله یک دفترچه یادداشت Jupyter در پوشه examples پروژه در گیت هاب در دسترس است.

استفاده ساده از بلوک تک‌کد

from neuttsair.neutts import NeuTTSAir
import soundfile as sf

tts = NeuTTSAir( backbone_repo="neuphonic/neutts-air-q4-gguf", backbone_device="cpu", codec_repo="neuphonic/neucodec", codec_device="cpu")
input_text = "My name is Dave, and um, I'm from London."

ref_text = "samples/dave.txt"
ref_audio_path = "samples/dave.wav"

ref_text = open(ref_text, "r").read().strip()
ref_codes = tts.encode_reference(ref_audio_path)

wav = tts.infer(input_text, ref_codes, ref_text)
sf.write("test.wav", wav, 24000)

نکات

NeuTTS Air به دو ورودی نیاز دارد:

یک نمونه صوتی مرجع (فایل .wav)
یک رشته متنی

سپس مدل، متن را به صورت گفتار به سبک صدای مرجع تولید می‌کند. این همان چیزی است که قابلیت شبیه‌سازی فوری صدای NeuTTS Air را به نمایش می‌گذارد.

فایل‌های مرجع نمونه

می‌توانید چند نمونه آماده برای استفاده را در پوشه examples پیدا کنید:

samples/dave.wav
samples/jo.wav

دستورالعمل‌هایی برای بهترین نتایج

برای عملکرد بهینه، نمونه‌های صوتی مرجع باید:

مونو کانال
نرخ نمونه‌برداری ۱۶-۴۴ کیلوهرتز
طول ۳-۱۵ ثانیه
ذخیره شده به عنوان فایل .wav
تمیز : حداقل یا بدون نویز پس‌زمینه
گفتار طبیعی و پیوسته : مانند یک مونولوگ یا مکالمه، با مکث‌های کم، تا مدل بتواند لحن را به طور موثر ضبط کند.

مسئولیت

هر فایل صوتی تولید شده توسط NeuTTS Air شامل نشانگر آستانه ادراکی Perth است.