هوش مصنوعی صوتی پیشرفته مدت زیادی است که پشت واسط برنامه نویسی های (API) وب محبوس شده است. NeuTTS Air اولین مدل زبان گفتاری TTS(Text To Speech) فوقالعاده واقعگرایانه روی دستگاه در جهان با شبیهسازی فوری صدا است. NeuTTS Air که بر اساس یک پایه (backbone) مدل LLM 0.5B ساخته شده است، گفتار طبیعی، عملکرد در زمان واقعی، امنیت داخلی و شبیهسازی گفتاری را به دستگاه محلی شما میآورد و دسته جدیدی از عوامل صوتی تعبیهشده، دستیاران، اسباببازیها و برنامههای ایمن از نظر انطباق را ارائه میدهد.
ویژگیهای کلیدی
- 🗣 بهترین واقعگرایی در کلاس خود با توجه به اندازهاش – صداهای طبیعی و فوقالعاده واقعگرایانهای تولید میکند که صدای انسان را تداعی میکنند.
 - 📱بهینهسازی شده برای پیادهسازی روی دستگاه – ارائه شده در قالب GGML، آماده اجرا روی تلفنها، لپتاپها یا حتی Raspberry Pi
 - 👫شبیهسازی فوری صدا – سخنگوی خود را با تنها ۳ ثانیه صدا بسازید.
 - 🚄معماری کدک + LM ساده که بر پایه مدل ۰.۵ گیگابایت ساخته شده است – نقطه مطلوب بین سرعت، اندازه و کیفیت برای برنامههای دنیای واقعی
 
جزئیات مدل
NeuTTS Air بر اساس Qwen 0.5B ساخته شده است. یک مدل زبانی سبک اما توانمند که برای درک و تولید متن بهینه شده است. همچنین ترکیبی قدرتمند از فناوریهای طراحی شده برای کارایی و کیفیت:
- کدک صوتی: NeuCodec کدک صوتی عصبی اختصاصی که با استفاده از یک کتاب کد(codebook) واحد، کیفیت صدای استثنایی را در نرخ بیتهای پایین به دست میآورد.
 - فرمت: موجود در قالب GGML برای استنتاج کارآمد روی دستگاه
 - مسئولیت: خروجیهای واترمارک شده
 - سرعت استنتاج: تولید بلادرنگ در دستگاههای میانرده
 - مصرف برق: بهینه شده برای دستگاههای موبایل و تعبیهشده(embedded system)
 
نحوه استفاده

- مخزن گیت با دستور زیر بر روی سیستم خود بیاورید
 
git clone https://github.com/neuphonic/neutts-air.git
cd neuttsair
- نصب espeak (وابستگی مورد نیاز دارد)
 
برای آموزش نصب espeak به لینک زیر مراجعه کنید:
https://github.com/espeak-ng/espeak-ng/blob/master/docs/guide.md
# Mac OS
brew install espeak
# Ubuntu/Debian
sudo apt install espeak
# Arch Linux
paru -S aur/espeak
- نصب وابستگی های پایتون
 
فایل الزامات شامل وابستگیهای مورد نیاز برای اجرای مدل با PyTorch است. هنگام استفاده از رمزگشای ONNX یا مدل GGML، برخی از وابستگیها (مانند PyTorch) دیگر مورد نیاز نیستند.
این استفاده با پایتون نسخههای بالاتر از ۳.۱۱ سازگار و آزمایش شده است.
pip install -r requirements.txt
مثال ساده از اجرا
اسکریپت پایه ای زیر را برای ترکیب گفتار اجرا کنید:
python -m examples.basic_example \
  --input_text "My name is Dave, and um, I'm from London" \
  --ref_audio samples/dave.wav \
  --ref_text samples/dave.txt
برای مشخص کردن یک مخزن مدل خاص برای backbone یا کدک، آرگومان –backbone را اضافه کنید. backbone های موجود در مجموعه NeuTTS-Air huggingface فهرست شدهاند.
چندین مثال از جمله یک دفترچه یادداشت Jupyter در پوشه examples پروژه در گیت هاب در دسترس است.
استفاده ساده از بلوک تککد
from neuttsair.neutts import NeuTTSAir
import soundfile as sf
tts = NeuTTSAir( backbone_repo="neuphonic/neutts-air-q4-gguf", backbone_device="cpu", codec_repo="neuphonic/neucodec", codec_device="cpu")
input_text = "My name is Dave, and um, I'm from London."
ref_text = "samples/dave.txt"
ref_audio_path = "samples/dave.wav"
ref_text = open(ref_text, "r").read().strip()
ref_codes = tts.encode_reference(ref_audio_path)
wav = tts.infer(input_text, ref_codes, ref_text)
sf.write("test.wav", wav, 24000)
نکات
NeuTTS Air به دو ورودی نیاز دارد:
- یک نمونه صوتی مرجع (فایل .wav)
 - یک رشته متنی
 
سپس مدل، متن را به صورت گفتار به سبک صدای مرجع تولید میکند. این همان چیزی است که قابلیت شبیهسازی فوری صدای NeuTTS Air را به نمایش میگذارد.
فایلهای مرجع نمونه
میتوانید چند نمونه آماده برای استفاده را در پوشه examples پیدا کنید:
- samples/dave.wav
 - samples/jo.wav
 
دستورالعملهایی برای بهترین نتایج
برای عملکرد بهینه، نمونههای صوتی مرجع باید:
مونو کانال
نرخ نمونهبرداری ۱۶-۴۴ کیلوهرتز
طول ۳-۱۵ ثانیه
ذخیره شده به عنوان فایل .wav
تمیز : حداقل یا بدون نویز پسزمینه
گفتار طبیعی و پیوسته : مانند یک مونولوگ یا مکالمه، با مکثهای کم، تا مدل بتواند لحن را به طور موثر ضبط کند.
مسئولیت
هر فایل صوتی تولید شده توسط NeuTTS Air شامل نشانگر آستانه ادراکی Perth است.