منوعات

“أوبن أيه آي” ترتقي بصوت “تشات جي بي تي” إلى مستوى جديد من التفاعل الإنساني

في خطوة نوعية جديدة ضمن سباق تطوير الذكاء الاصطناعي، كشفت شركة “أوبن أيه آي” عن تحديث متقدم لوضع “الصوت المتقدم” في نموذجها الشهير “تشات جي بي تي”، يهدف إلى تقريب تجربة المحادثة الصوتية بين الإنسان والآلة إلى أقرب ما يكون من الواقع.

التحديث لا يقتصر على تحسين جودة النطق أو سرعة الاستجابة فحسب، بل يمنح “تشات جي بي تي” قدرة فريدة على التعبير الصوتي، تشمل نغمات وإيقاعات تعكس تعابير إنسانية متنوعة مثل التعاطف والسخرية، ما يحوّل النموذج من مجرد برنامج نصي إلى صوت قادر على إجراء حوارات طبيعية وعاطفية تلامس المشاعر الحقيقية.

وفقًا لموقع “Neowin” التقني، يعتمد التحديث على نموذج GPT-4o متعدد الوسائط، الذي يتيح للنظام الرد على المدخلات الصوتية في زمن قياسي يصل إلى 232 ميلي ثانية، بمتوسط سرعة استجابة يقترب من سرعة التفاعل البشري العادي. ويُعد هذا قفزة هائلة نحو محاكاة المحادثات الواقعية، خاصة في المواقف العاطفية أو الحوارات المعقدة.

ومن أبرز مميزات التحديث الجديدة، القدرة على الترجمة الفورية الصوتية بين اللغات، حيث يستطيع المستخدم طلب الترجمة المستمرة أثناء المحادثة دون الحاجة إلى تطبيقات خارجية، مما يسهل التواصل عبر الحواجز اللغوية بطريقة أكثر انسيابية وفعالية.

على الرغم من هذه التحسينات الكبيرة، تواجه “أوبن أيه آي” بعض التحديات التقنية مثل انخفاض جودة الصوت في حالات نادرة، وظهور تشويشات أو أصوات غير مقصودة، وهو ما تعهدت الشركة بمعالجته تدريجيًا ضمن خطط تطويرها المستمرة.

ويأتي هذا التحديث حصريًا لمشتركي النسخ المدفوعة من “تشات جي بي تي” (Plus وEnterprise)، في انتظار أن يشمل المستخدمين الأوسع مستقبلاً.

مع هذه التطورات، يبدو أن الذكاء الاصطناعي يتجاوز مرحلة “فهم الكلام” إلى مرحلة “التحدث” بنبرة إنسانية تنم عن فهم عميق، مما يطرح تساؤلات جديدة حول حدود التفاعل بين الإنسان والآلة: هل نحن على وشك خلق نسخة رقمية لا تُميز عن الإنسان نفسه؟ أم أن هذه التقنية ستظل مجرد أداة تخدمنا؟

التحديث الجديد يشكل بداية فصل جديد في قصة الذكاء الاصطناعي الصوتي، ويترك الباب مفتوحًا لمزيد من الابتكارات والتحديات في عالم تتقارب فيه الأصوات البشرية والرقمية يوماً بعد يوم.