أعلنت Google عن إطلاق نموذجها الجديد للذكاء الاصطناعي اللغوي ، AudioPaLM ، الذي يتمتع بقدرة استثنائية على الاستماع والتحدث والترجمة بدقة كبيرة وبسرعة فائقة.
هذا النموذج الجديد ، كما يوحي اسمه ، يعتمد بشكل أساسي على نقاط القوة في نموذجين آخرين معروفين سابقًا ، PaLM-2 و AudioLM.
يندرج PaLM-2 أيضًا في فئة LLMs ، والتي لديها القدرة على فهم ومحاكاة وإنشاء النص بطريقة مشابهة للغات البشرية. في المقابل ، يركز نموذج AudioLM على جوانب مثل الحفاظ على هوية المتحدث ونبرة الصوت.
قام باحثو Google بدمج النموذجين السابقين لإنشاء نموذج جديد يسمى AudioPaLM ، والذي يهدف إلى إنشاء نص وحديث بكفاءة عالية.
تم تصميم تعديل AudioPaLM الجديد لتأثير مجموعة متنوعة من المفاتيح ، حيث يخبرنا أن الترجمة الصوتية للغة بلغة مختلفة تحافظ على النغمة الأصلية للصوت. علاوة على ذلك ، فإن النموذج قادر على التقاط الأصوات والأوامر المنطوقة ثم إعادة إنتاجها بلغات مختلفة أخرى.
الذكاء الاصطناعي اللغوي الجديد AudioPaLM الاستماع و التحدث و الترجمة بدقة عالية و سرعة كبيرة
وفقًا للباحثين الذين يعملون على النموذج ، فإنه يتعرف أيضًا على الأصوات ويحولها إلى نص ، بحيث يمكنه ترجمة التراكيب اللغوية بدقة عالية لم تتم معالجتها من قبل.
يتم حاليًا استكشاف نموذج Google وتطويره ، ولم يتم تحديد موعد لإتاحته للجمهور.
من ناحية أخرى ، أعلنت Meta سابقًا عن نموذج ذكاء اصطناعي جديد يسمى Voicebox ، وهو نموذج حديث قادر على أداء مهام إنشاء الكلام بكفاءة. يمكنه أيضًا تحرير المقاطع الصوتية بكفاءة واستخدام عينات صوتية لإنتاج خطابات بلغات مختلفة وغير ذلك.