أعلنت شركة «ميتا» عن إطلاق نموذجها الجديد للذكاء الاصطناعي «Spirit LM»، وهو نموذج مفتوح المصدر مصمم لمعالجة التحديات المتعلقة بالنماذج المتعددة الوسائط في مجال توليد الأصوات البشرية.
نموذج «Spirit LM» من ميتا
يهدف «Spirit LM» إلى إنتاج أصوات طبيعية وأكثر تعبيرًا، في خطوة جديدة نحو تحسين تفاعلات الروبوتات الذكية عبر التواصل الصوتي المعقد والواقعي. يعتمد هذا النموذج على قاعدة بيانات لغوية مدربة تحتوي على 7 مليارات معلمة، ويتميز بتعامله المختلف مع الأصوات مقارنة بالنماذج التقليدية التي تعتمد على تقنيات التعرف التلقائي على الكلام (ASR).
تعابير الصوت الطبيعية
وأشارت «ميتا» إلى أن النهج التقليدي يفقد الكثير من تعابير الصوت الطبيعية، ولتجاوز هذه المشكلة، يستخدم «Spirit LM» رموز الفونيم والنغمات ودرجات الصوت، ما يسمح له بإنتاج أصوات واقعية وتعليم مهام جديدة مثل تحويل النص إلى صوت وتصنيف الكلام.
نموذج «Spirit LM» من ميتا
وقد كشفت ميتا عن النموذج في ورقة بحثية تضمنت تفاصيل عملية التطوير، وأداء النموذج عبر عينات صوتية. «Spirit LM» متاح الآن للمطورين والباحثين كمشروع مفتوح المصدر، ومن المتوقع أن يُدمج مستقبلًا في تطبيقات ميتا مثل واتساب وإنستاجرام وفيسبوك، ما سيتيح للمستخدمين التفاعل مع الذكاء الاصطناعي عبر محادثات صوتية طبيعية مشابهة لتلك التي قدمتها شركة OpenAI مؤخرًا.