الذكاء الاصطناعي اللغوي الجديد AudioPaLM الاستماع و التحدث و الترجمة بدقة عالية و سرعة كبيرة

 أعلنت Google عن إطلاق نموذجها الجديد للذكاء الاصطناعي اللغوي ، AudioPaLM ، الذي يتمتع بقدرة استثنائية على الاستماع والتحدث والترجمة بدقة كبيرة وبسرعة فائقة.


هذا النموذج الجديد ، كما يوحي اسمه ، يعتمد بشكل أساسي على نقاط القوة في نموذجين آخرين معروفين سابقًا ، PaLM-2 و AudioLM.


الذكاء الاصطناعي اللغوي الجديد AudioPaLM الاستماع و التحدث و الترجمة بدقة عالية و سرعة كبيرة



يندرج PaLM-2 أيضًا في فئة LLMs ، والتي لديها القدرة على فهم ومحاكاة وإنشاء النص بطريقة مشابهة للغات البشرية. في المقابل ، يركز نموذج AudioLM على جوانب مثل الحفاظ على هوية المتحدث ونبرة الصوت.



قام باحثو Google بدمج النموذجين السابقين لإنشاء نموذج جديد يسمى AudioPaLM ، والذي يهدف إلى إنشاء نص وحديث بكفاءة عالية.



تم تصميم تعديل AudioPaLM الجديد لتأثير مجموعة متنوعة من المفاتيح ، حيث يخبرنا أن الترجمة الصوتية للغة بلغة مختلفة تحافظ على النغمة الأصلية للصوت. علاوة على ذلك ، فإن النموذج قادر على التقاط الأصوات والأوامر المنطوقة ثم إعادة إنتاجها بلغات مختلفة أخرى.


 الذكاء الاصطناعي اللغوي الجديد AudioPaLM الاستماع و التحدث و الترجمة بدقة عالية و سرعة كبيرة


وفقًا للباحثين الذين يعملون على النموذج ، فإنه يتعرف أيضًا على الأصوات ويحولها إلى نص ، بحيث يمكنه ترجمة التراكيب اللغوية بدقة عالية لم تتم معالجتها من قبل.



يتم حاليًا استكشاف نموذج Google وتطويره ، ولم يتم تحديد موعد لإتاحته للجمهور.



من ناحية أخرى ، أعلنت Meta سابقًا عن نموذج ذكاء اصطناعي جديد يسمى Voicebox ، وهو نموذج حديث قادر على أداء مهام إنشاء الكلام بكفاءة. يمكنه أيضًا تحرير المقاطع الصوتية بكفاءة واستخدام عينات صوتية لإنتاج خطابات بلغات مختلفة وغير ذلك.




حجم الخط
+
16
-
تباعد السطور
+
2
-