أطلقت شركة ميتا نموذجها الجديد "Spirit LM" المفتوح المصدر، الذي يعنى بمعالجة التحديات المتعلقة بالنماذج المتعددة الوسائط في الذكاء الاصطناعي في توليد الأصوات، وتقليد الأصوات البشرية.
ويعتمد نموذج "Spirit LM" على نموذج لغوي مدرب سابقا يحتوي على 7 مليارات معلمة، ويتميز بقدرته على معالجة الصوت بنحو مختلف عن النماذج التقليدية التي تعتمد على تقنيات تعرف الكلام تلقائيا (ASR).
ويهدف النموذج الجديد إلى تقديم تجربة صوتية طبيعية وأكثر تعبيرا، مما يشكل خطوة متقدمة في تطوير الروبوتات الذكية القادرة على التواصل الصوتي بنحو أكثر تعقيدا وواقعية.
وأشارت "ميتا" إلى أن النهج التقليدي يؤدي إلى فقدان الكثير من التعبيرات الطبيعية في الصوت، ولذلك، يعتمد "Spirit LM" على استخدام رموز الفونيم (الوحدات الصوتية) والنغمات ودرجات الصوت لتجاوز هذه القيود، مما يمكنه من إنتاج أصوات طبيعية، والتعلم من مهام جديدة تشمل تعرف الكلام، وتحويل النص إلى صوت، وتصنيف الكلام.
ويتوفر النموذج الآن كمشروع مفتوح المصدر للمطورين والباحثين لاستخدامه وتطويره، ويتوقع أن يستخدم مستقبلا ضمن تطبيقات ميتا مثل واتسآب وإنستغرام وفيسبوك، مما يتيح للمستخدمين التفاعل مع الذكاء الاصطناعي عبر محادثات صوتية طبيعية مليئة بالتعبيرات على غرار الوضع الصوتي المتقدم الذي قدمته شركة OpenAI حديثا.