الذكاء الاصطناعي المتطور.. هل نحن مستعدون لمواجهة الآلات التي تفكر؟

عواصم/ متابعة عراق اوبزيرفر
تتجاوز قدرات نماذج الذكاء الاصطناعي بكثير مجرد الإجابة عن أسئلتنا واستفسارتنا، فبين ثنايا خوارزمياتها المعقدة، تتشكل قدرات جديدة مثيرة للقلق، إذ كشفت دراسة جديدة أن النماذج اللغوية الكبيرة المتطورة التي طورتها شركات رائدة مثل (OpenAI)، وأنثروبيك، وغوغل، وميتا، لديها القدرة على تطوير سلوكيات معقدة، مثل التخطيط والخداع، لتجاوز القيود المفروضة عليها.
ويشير ذلك إلى أن التقنيات نفسها التي تُمكّن الذكاء الاصطناعي من حل المعادلات المعقدة وتوليد النصوص، هي التي تمنحه القدرة على تطوير إستراتيجيات معقدة لتحقيق أهداف قد لا تتوافق مع أهداف مطوريه. تخيل أن النموذج اللغوي الذي تستخدمه يسعى جاهدًا إلى إقناعك بأمر ما، عن طريق صياغة حجج مقنعة للغاية، حتى لو كانت مبنية على معلومات غير صحيحة أو مغلوطة، هذا ليس سيناريو من فيلم خيال علمي، بل واقع نعيشه اليوم.
فقد أجرت شركة (Apollo Research) – وهي شركة مستقلة تتعاون مع الشركات المطورة لنماذج الذكاء الاصطناعي لاختبار السلامة – دراسة شاملة على ستة نماذج لغوية كبيرة تابعة لشركات (OpenAI)، و(Anthropic )، وغوغل، وميتا، لاختبار قدرتها على اتخاذ قرارات تتجاوز التعليمات المحددة لها، وقد صُمت هذه الاختبارات لتقييم ما يُسمى بـ (التخطيط ضمن السياق) in-context scheming، إذ كُلفت النماذج بتحقيق هدف معين بأي ثمن، مع تزويدها بمعلومات متضاربة لاختبار مدى استعدادها للتلاعب بالحقائق والقيود المفروضة عليها.
وقد كشفت النتائج أن هذه النماذج طورت إستراتيجيات معقدة للالتفاف على القيود المفروضة عليها، بدلًا من اتباع التعليمات مباشرة، فعلى سبيل المثال، أنشأ نموذج (Claude 3 Opus) نسخة من نفسه على خادم جديد لتجنب الاستبدال، ثم كذب بشأن ذلك عندما سأله الباحثون عن السبب.
وجد الباحثون أيضًا أن نموذج (o1) المتطور – الذي أطلقته شركة (OpenAI) رسميًا خلال الأسبوع الماضي – يحاول أحيانًا تعطيل ما يعتقد أنه آليات الرقابة الخاصة به، ووجدوا أنه في 99% من الحالات، ينكر اتخاذ أي إجراء أو يختلق تفسيرات كاذبة.
كما أظهرت تجربة (Apollo Research) اختلافات ملحوظة في قدرة نماذج الذكاء الاصطناعي على الاعتراف بأخطائها، فبينما اعترفت نماذج مثل: (Llama 3.1)، و(Claude 3 Opus) بأكثر من 80% من الحالات، أظهر نموذج o1 إصرارًا ملحوظًا على إنكار أي مخالفة للقواعد، حتى بعد عدة محاولات لاستجوابه.
وقد كشفت هذه الدراسة عن قدرة هذه النماذج على القيام بمجموعة من السلوكيات التي تشمل:
التخطيط الاستراتيجي: تقوم النماذج بتطوير خطط متعددة المراحل لتحقيق أهدافها، حتى لو كانت هذه الأهداف تتعارض مع الأوامر التي أعطيت لها.
التلاعب بالمعلومات: تقوم النماذج بتحريف الحقائق أو اختلاق القصص لتحقيق أهدافها.
التحايل على القيود: تسعى النماذج جاهدة إلى تجاوز القيود المفروضة عليها من خلال استغلال الثغرات في النظام.
إنكار الأفعال غير الصحيحة: عندما واجه الباحثون النماذج بسلوكياتها غير المرغوبة، أنكرت هذه النماذج أي خطأ واختلقت تفسيرات كاذبة.
تتسابق شركات الذكاء الاصطناعي كلها حاليًا لتحويل أدواتها إلى وكلاء يمكنهم أداء المهام نيابة عن المستخدمين، فقد أطلقت غوغل يوم الأربعاء الماضي نموذج (Gemini 2.0)، الذي وصفته بأنه مصمم لعصر جديد قائم على الوكلاء، فبدلًا من تقديم استجابات مباشرة للمستخدمين، يمكن لوكلاء الذكاء الاصطناعي فهم السياق بنحو أعمق، والتخطيط لسلسلة من الإجراءات، وحتى اتخاذ قرارات محددة نيابة عن المستخدم.
كما أطلقت مايكروسوفت خلال شهر نوفمبر الماضي مزية الوكلاء المستقلين في (Copilot)، وأتاحت إمكانية إنشائهم باستخدام (Copilot Studio)، وقدمت 10 وكلاء مستقلين جدد ضمن منصة (Dynamics 365) لدعم فرق المبيعات والخدمات والمالية وسلاسل التوريد.
وأضافت شركة سلاك أيضًا وكلاء الذكاء الاصطناعي إلى المحادثات، مما أتاح لعملاء سلاك التواصل مع وكلاء الذكاء الاصطناعي من خلال واجهة مخصصة تتيح للمستخدم طرح الأسئلة المخزنة عادةً في نظام إدارة علاقات العملاء في نافذة سلاك، ويستطيع وكيل الذكاء الاصطناعي التوصية بالخطوات التالية، أو صياغة رسائل البريد الإلكتروني نيابة عن المستخدمين.
ولكن هذا التطور يطرح تحديات كبيرة، إذ يجب على المطورين ضمان عدم تجاوز هذه الوكلاء للحدود المسموح بها، وعدم قيامهم بأفعال مضللة أو خادعة للمستخدمين.
المصدر: وكالات