أ ف ب

صمم فريق من المبرمجين في شركة بريطانية للذكاء الاصطناعي لاعبين آليين في لعبة «كويك 3 أرينا» تمكنوا من الانتصار بانتظام على مجموعة لاعبين من البشر.

وورد عمل الباحثين في شركة «ديب مايند»، التي تملكها مجموعة «ألفابت» الشركة الأم لـ «غوغل»، في مجلة «ساينس». وقد أثبتت الحواسيب حتى الآن مراراً وتكراراً تفوقها على البشر في ألعاب فردية مثل الشطرنج منذ تغلب حاسوب «ديب بلو» من شركة «آي بي أم» على بطل العالم السابق غاري كاسباروف في 1997. وفي عام 2017، تغلب لاعب آلي يتحلى بذكاء اصطناعي من «غوغل» على اللاعب المصنف أولاً في العالم في لعبة «غو»، ولكن القدرة على المواجهة في لعبة يشارك فيها لاعبون عدة وتقوم على العمل الجماعي والتفاعل في بيئات معقدة، كانت حتى الآن مهمة مستحيلة.

وفي إطار هذه الدراسة، عمل الفريق بقيادة ماك جادربرغ على نسخة معدلة من لعبة «كويك 3 أرينا» التي أطلقت للمرة الأولى عام 1999 ولكنها لا تزال تلقى رواجاً في مسابقات الألعاب الإلكترونية. وقد اختار الفريق فئة «كابتشر ذي فلاغ» (الاستيلاء على العلم) في اللعبة التي تقوم على العمل ضمن فريق لانتزاع علم الفريق الخصم مع المحافظة على علمهم الخاص، الأمر الذي يرغم اللاعبين على وضع استراتيجيات معقدة تمزج بين الدفاع والهجوم. وبعد تلقي العناصر الآلية التدريبات اللازمة، تواجهت مع مجربي ألعاب محترفين. وكتب الفريق «حتى بعد 12 ساعة من الممارسة، لم يتمكن الفريق البشري من الفوز إلا بـ 25 في المئة من المواجهات مع الفريق الآلي». وبقي ميزان الربح والخسارة لصالح فريق الذكاء الاصطناعي حتى عندما تم إبطاء سرعة تفاعله وخفض قدرته على التصويب.

خطوات جديدة للذكاء الاصطناعي

واستند المبرمجون إلى ما يعرف «بالتعليم المعزز» لإضفاء الذكاء على اللاعبين الآليين. وأوضح جادربرغ «في البداية، لم يكن اللاعبون الآليون يعرفون شيئاً وكانوا يتحركون بشكل عشوائي في كل الاتجاهات»، ولكن الفريق استحدث أيضاً سلسلة من الوسائل الجديدة والابتكارية لتوسيع حدود ما هو ممكن من خلال التعليم المعزز. وأضاف «لقد ساهمت هذه الدراسة في إظهار أن كل لاعب يستحدث نظامه الخاص للمكافأة الداخلية» أي أن اللاعبين المجهزين بالذكاء الاصطناعي حددوا بأنفسهم قيمة المهمات المنجزة مثل الاستيلاء على العلم أو إصابة الخصم. وبعد ذلك، تبين للمبرمجين أن تدريب مجموعة من اللاعبين الآليين معاً بدلاً من التدريب على انفراد يجعل هذه المجموعة تتعلم بسرعة أكبر. واستحدث المبرمجون كذلك هندسة جديدة لما يعرف بالتعلم «بسرعتين مختلفتين». وأوضح جادربرغ قائلاً «لدينا جزء من اللاعب يتفاعل بسرعة كبيرة ويحدّث بياناته بسرعة، ولدينا جزء آخر من اللاعب يحدّث بياناته بسرعة أقل. نوعا البيانات يؤثران على بعضهما البعض ويحددان نظرة اللاعب إلى العالم».

أخبار ذات صلة

خطة مبتكرة من ماسك لزيادة إيرادات تويتر
أبل تعتزم تقديم شاشة حاسوب ماك تعمل باللمس