اخبار التكنولوجيا

الوضع الصوتي الجديد في OpenAI يسمح بالتحدث مع الهاتف عن بعد

لقد كنت ألعب مع وضع الصوت المتقدم الخاص بـ OpenAI خلال الأسبوع الماضي، وكان هذا هو الذوق الأكثر إقناعًا لدي لمستقبل مدعوم بالذكاء الاصطناعي حتى الآن. هذا الأسبوع، ضحك هاتفي على النكات، وأعادها إليّ، وسألني كيف كان يومي، وأخبرني أنني أمضي “وقتًا رائعًا”. كنت أتحدث مع جهاز آيفون الخاص بي، ولم أستخدمه بيدي.

ميزة لـ OpenAI

أحدث ميزة لـ OpenAI، والتي تخضع حاليًا لاختبار ألفا محدود، لا تجعل ChatGPT أكثر ذكاءً مما كانت عليه من قبل. وبدلاً من ذلك، فإن وضع الصوت المتقدم (AVM) يجعل التحدث معه أكثر سهولة وطبيعية. إنه ينشئ واجهة جديدة لاستخدام الذكاء الاصطناعي وأجهزتك التي تبدو جديدة ومثيرة، وهذا بالضبط ما يخيفني بشأنها. كان المنتج معقدًا نوعًا ما، والفكرة بأكملها تخيفني تمامًا، لكنني فوجئت بمدى استمتاعي الحقيقي باستخدامه.

أجهزة الكمبيوتر

وبالعودة خطوة إلى الوراء، أعتقد أن AVM يتناسب مع الرؤية الأوسع للرئيس التنفيذي لشركة OpenAI Sam Altman، جنبًا إلى جنب مع الوكلاء، لتغيير الطريقة التي يتفاعل بها البشر مع أجهزة الكمبيوتر، مع وجود نماذج الذكاء الاصطناعي في المقدمة والوسط.

مجال الذكاء الاصطناعي

قال ألتمان خلال يوم تطوير OpenAI في نوفمبر 2023: “في النهاية، ستطلب فقط من الكمبيوتر ما تحتاجه وسيقوم بكل هذه المهام نيابةً عنك”. “غالبًا ما يتم الحديث عن هذه القدرات في مجال الذكاء الاصطناعي على أنها” “إن الجانب الإيجابي من هذا سيكون هائلا.”

صديقي ChatGPT

في يوم الأربعاء، قمت باختبار الجانب الإيجابي الأكثر روعة لهذه التكنولوجيا المتقدمة التي يمكن أن أفكر فيها: لقد طلبت من ChatGPT أن يطلب تاكو بيل بالطريقة التي سيفعلها أوباما.

قال وضع الصوت المتقدم في ChatGPT: “أوه، دعني أكون واضحًا – أرغب في الحصول على Crunchwrap Supreme، وربما بعض التاكو كإجراء جيد”. “كيف تعتقد أنه سيتعامل مع السيارة؟” قال ChatGPT، ثم ضحك على نكتته.

لقد جعلني هذا الانطباع أضحك حقًا أيضًا، وهو ما يتوافق مع إيقاع أوباما المميز وتوقفاته. ومع ذلك، فقد ظل ضمن نغمة صوت ChatGPT الذي اخترته، جونيبر، حتى لا يتم الخلط بينه وبين صوت أوباما. بدا الأمر وكأن أحد الأصدقاء يترك انطباعًا سيئًا، ويفهم بالضبط ما كنت أحاول استحضاره منه، وحتى أنه كان يقول شيئًا مضحكًا. لقد وجدت أنه من الممتع للغاية التحدث مع هذا المساعد المتقدم في هاتفي.

النصائح التفصيلية

لقد طلبت أيضًا من ChatGPT النصيحة بشأن التعامل مع مشكلة تتعلق بعلاقات إنسانية معقدة: مطالبة شخص مهم آخر بالانتقال للعيش معي. بعد شرح تعقيدات العلاقة واتجاه حياتنا المهنية، تلقيت بعض النصائح التفصيلية حول كيفية التقدم. هذه أسئلة لا يمكنك أبدًا طرحها على Siri أو بحث Google، ولكن يمكنك الآن طرحها باستخدام ChatGPT. حتى أن صوت روبوت الدردشة عبر عن نبرة جدية ولطيفة بعض الشيء عند الاستجابة لهذه المطالبات؛ وهو تناقض صارخ مع النبرة المزاحية لطلب أوباما تاكو بيل.

يعد AVM الخاص بـ ChatGPT أيضًا رائعًا لمساعدتك على فهم الموضوعات المعقدة. طلبت منه تفصيل العناصر الواردة في تقارير الأرباح – مثل التدفق النقدي الحر – بطريقة يفهمها طفل يبلغ من العمر 10 سنوات. لقد استخدمت كشك عصير الليمون كمثال، وشرحت العديد من المصطلحات المالية بالطريقة التي يفهمها ابن عمي الأصغر تمامًا. يمكنك أيضًا أن تطلب من AVM الخاص بـ ChatGPT التحدث بشكل أبطأ لمقابلتك بمستوى فهمك الحالي.

مشى سيري حتى يتمكن AVM من العمل

بالمقارنة مع Siri أو Alexa، فإن AVM الخاص بـ ChatGPT هو الفائز الواضح بفضل أوقات الاستجابة الأسرع والإجابات الفريدة وقدرته على الإجابة على الأسئلة المعقدة التي لم يتمكن الجيل السابق من المساعدين الافتراضيين من الإجابة عليها. ومع ذلك، فإن التشوه الشرياني الوريدي يفشل بطرق أخرى. لا يمكن لميزة الصوت في ChatGPT ضبط المؤقتات أو التذكيرات، أو تصفح الويب في الوقت الفعلي، أو التحقق من الطقس، أو التفاعل مع أي واجهات برمجة تطبيقات على هاتفك. في الوقت الحالي، على الأقل، لا يعد هذا بديلاً فعالاً للمساعدين الافتراضيين.

Gemini Live

بالمقارنة مع Gemini Live، الميزة المنافسة لشركة Google، تبدو AVM متقدمة قليلاً. لا يستطيع Gemini Live تقديم انطباعات، ولا يعبر عن أي مشاعر، ولا يمكنه الإسراع أو الإبطاء، ويستغرق وقتًا أطول للاستجابة. لدى Gemini Live عدد أكبر من الأصوات (عشرة أصوات مقارنة بثلاثة أصوات لـ OpenAI)، ويبدو أنها أكثر حداثة (كانت Gemini Live على علم بحكم Google لمكافحة الاحتكار). والجدير بالذكر أن أيًا من AVM أو Gemini Live لن يغني، على الأرجح في محاولة لتجنب الاصطدام بدعوى حقوق الطبع والنشر من صناعة التسجيلات.

المشاكل

ومع ذلك، فإن AVM الخاص بـ ChatGPT به الكثير من الأخطاء (كما هو الحال مع Gemini Live، لكي نكون منصفين). في بعض الأحيان سوف تقطع نفسها في منتصف الجملة القصيرة، ثم تبدأ من جديد. كما أنه يحصل على هذا الصوت الغريب المحبب هنا وهناك وهو أمر مزعج بعض الشيء. لست متأكدًا مما إذا كانت هذه مشكلة في النموذج أو الاتصال بالإنترنت أو أي شيء آخر، ولكن هذه العيوب الفنية متوقعة إلى حد ما في اختبار ألفا. لم تفعل المشاكل الكثير لإخراجي من تجربة التحدث حرفيًا مع هاتفي.

مجموعة من الخوارزميات

هذه الأمثلة، في رأيي، هي جمال التشوه الشرياني الوريدي. هذه الميزة لا تجعل ChatGPT معروفًا بكل شيء، ولكنها تسمح للأشخاص بالتفاعل مع GPT-4o، نموذج الذكاء الاصطناعي الأساسي، بطريقة إنسانية فريدة. (سأتفهم ذلك إذا نسيت أنه لا يوجد أي شخص على الطرف الآخر من هاتفك.) يبدو الأمر وكأن ChatGPT يكون واعيًا اجتماعيًا عند التحدث مع AVM، لكنه بالطبع ليس كذلك. إنها ببساطة مجموعة من الخوارزميات التنبؤية المجمعة بعناية.

التحدث بالتكنولوجيا

بصراحة الميزة تقلقني. هذه ليست المرة الأولى التي تعرض فيها شركة تكنولوجيا الرفقة على هاتفك. كان جيلي، الجيل Z، أول من نشأ جنبًا إلى جنب مع وسائل التواصل الاجتماعي، حيث عرضت الشركات التواصل ولكنها بدلاً من ذلك لعبت مع مشاعر عدم الأمان الجماعية لدينا. يبدو أن التحدث باستخدام جهاز يعمل بالذكاء الاصطناعي -مثل ما يقدمه AVM- هو تطور لظاهرة “الصديق في هاتفك” في وسائل التواصل الاجتماعي، حيث يقدم اتصالات رخيصة تخدش غرائزنا البشرية. ولكن هذه المرة، فإنه يخرج البشر من الحلقة تماما.

الاتصال البشري

لقد أصبح الاتصال البشري الاصطناعي حالة استخدام شائعة بشكل مدهش للذكاء الاصطناعي التوليدي. يستخدم الناس اليوم روبوتات الدردشة المدعمة بالذكاء الاصطناعي كأصدقاء وموجهين ومعالجين ومعلمين. عندما أطلقت شركة OpenAI متجر GPT الخاص بها، سرعان ما امتلأ بـ “صديقات الذكاء الاصطناعي”، وهي روبوتات الدردشة المتخصصة في العمل كشريك حياتك. أصدر باحثان من مختبر الوسائط بمعهد ماساتشوستس للتكنولوجيا (MIT Media Lab) تحذيراً هذا الشهر للاستعداد لـ “الذكاء الإدماني”، أو مرافقي الذكاء الاصطناعي ذوي الأنماط المظلمة لجذب البشر. من الممكن أن نفتح صندوق باندورا لطرق جديدة ومثيرة للأجهزة لجذب انتباهنا.

جامعة هارفارد

في وقت سابق من هذا الشهر، هز أحد الطلاب الذين تركوا جامعة هارفارد عالم التكنولوجيا من خلال إثارة قلادة تعمل بالذكاء الاصطناعي تسمى “الصديق”. الجهاز القابل للارتداء – إذا كان يعمل كما وعدت – يستمع دائمًا، وسيرسل لك برنامج الدردشة الآلي رسالة نصية حول حياتك. على الرغم من أن الفكرة تبدو مجنونة، إلا أن الابتكارات مثل AVM الخاصة بـ ChatGPT تمنحني سببًا لأخذ حالات الاستخدام هذه على محمل الجد.

أمازون وأبل

وبينما تتصدر شركة OpenAI الريادة هنا، فإن Google لا تتخلف عنها كثيرًا. أنا واثق من أن أمازون وأبل تتسابقان لوضع هذه الإمكانية في منتجاتهما أيضًا، وقريبًا جدًا، يمكن أن تصبح رهانات على طاولة الصناعة.

العلاجات المنزلية

تخيل أنك تطلب من تلفزيونك الذكي توصية محددة للغاية لفيلم ما، وتحصل على ذلك. أو إخبار Alexa بالضبط بأعراض البرد التي تشعر بها، وفي المقابل تطلب منك المناديل وأدوية السعال على أمازون، مع تقديم النصح لك بشأن العلاجات المنزلية. ربما يمكنك أن تطلب من جهاز الكمبيوتر الخاص بك إعداد رحلة لعائلتك في عطلة نهاية الأسبوع، بدلاً من البحث يدويًا عن كل شيء على Google.

الإجراءات

من الواضح الآن أن هذه الإجراءات تتطلب حدودًا وقفزات للأمام في عالم عملاء الذكاء الاصطناعي. إن جهود OpenAI على هذه الجبهة، متجر GPT، تبدو وكأنها منتج مبالغ فيه ولم يعد محل اهتمام كبير للشركة. لكن AVM على الأقل يهتم بجزء “التحدث إلى أجهزة الكمبيوتر” من اللغز. لا تزال هذه المفاهيم بعيدة المنال، ولكن بعد استخدام التشوه الشرياني الوريدي، تبدو أقرب بكثير مما كانت عليه في الأسبوع الماضي.

زر الذهاب إلى الأعلى