أنظمة الذكاء الاصطناعي لا تستطيع أن تفهم “ما بين السطور”

وعلى الرغم من التقدم الكبير الذي حققته أنظمة الذكاء الاصطناعي في السنوات الأخيرة، إلا أنها بالفعل متفوقة على البشر في العديد من المجالات، مثل الهندسة والطب وعلوم الفضاء، وحتى ألعاب الذكاء مثل الشطرنج. كما شاركوا أيضًا في أنشطة إبداعية مثل كتابة الشعر والرسم. وعلى الرغم من قوة الحوسبة المتفوقة والمليارات من الدولارات التي تستثمرها شركات التكنولوجيا العالمية، فإن أنظمة الذكاء الاصطناعي لا تزال متخلفة عن البشر عندما يتعلق الأمر بفهم الإشارات الاجتماعية التي تعبر عن المعنى الحقيقي أو أهمية التفاعلات البشرية. وبعبارة أخرى، لا تزال هذه الأنظمة الذكية غير قادرة على فهم ما بين السطور عندما يتحدث الناس مع بعضهم البعض.
وبحسب دراسة أجراها فريق بحثي بجامعة جونز هوبكنز، طلب الباحثون من ثلاث مجموعات من المتطوعين مشاهدة مقاطع فيديو لا تتجاوز مدتها ثلاث ثوان وتقييم التفاعلات الاجتماعية بين الأشخاص الذين يظهرون في هذه المقاطع.
وفي الوقت نفسه، تم تحليل نفس المقاطع بواسطة أكثر من 350 نظام ذكاء اصطناعي متخصص في تحليل الكلام والفيديو والصور لفهم معنى الإشارات الاجتماعية التي يستخدمها الأشخاص في تلك المقاطع.
وأثبتت التجربة أن المتطوعين أكملوا المهمة المطلوبة بسهولة، في حين لم تتمكن أنظمة الذكاء الاصطناعي من تفسير دلالات أو معاني المحادثات البشرية في مقاطع الفيديو.
ويعتقد الباحثون المشاركون في الدراسة أن أنظمة الذكاء الاصطناعي لا يزال أمامها طريق طويل قبل أن تتمكن من فهم الإشارات الاجتماعية البشرية بشكل كامل في بيئات التفاعل في العالم الحقيقي. وهذا له آثار خطيرة على الصناعات الناشئة مثل السيارات ذاتية القيادة، والروبوتات، وغيرها من المجالات التي تتطلب التفاعل المستمر بين البشر وأنظمة الذكاء الاصطناعي.
وقالت الباحثة ليلى إيزيك، الأستاذة المساعدة في العلوم الإدراكية بجامعة جونز هوبكنز والمؤلفة الرئيسية للدراسة: “إذا كان نظام الذكاء الاصطناعي سيتفاعل مع إنسان، فإنه يحتاج إلى فهم ما يعنيه الإنسان وكيف تتفاعل مجموعة من الأشخاص مع بعضهم البعض”. وأضافت في حديثها لمجلة Popular Science: “تظهر هذه الدراسة بوضوح سبب فشل أنظمة الذكاء الاصطناعي في أداء هذه المهمة”.
وفي حين أظهرت دراسات سابقة أن أنظمة الذكاء الاصطناعي قادرة على وصف معنى الصور الثابتة بنفس كفاءة البشر تقريبا، فإن الدراسة الجديدة تهدف إلى قياس ما إذا كان الأمر نفسه ينطبق على الصور المتحركة أو مقاطع الفيديو. وتوضح إيزيك أنها وفريقها البحثي اختاروا مئات مقاطع الفيديو من قاعدة بيانات خاصة، ثم قاموا بتقصيرها إلى ثلاث ثوان كحد أقصى. ركزوا على المقاطع التي تظهر شخصين يتفاعلان مع بعضهما البعض.
عرض الباحثون مقاطع الفيديو على المتطوعين المشاركين في التجربة، ثم سألوهم عن معنى التفاعلات بين الأشخاص في هذه المقاطع باستخدام أسئلة موضوعية مثل: “هل ترى أن الأشخاص في هذه المقاطع يواجهون بعضهم البعض؟” وأسئلة ذاتية مثل: “هل تبدو التفاعلات بين الأشخاص في الفيديو إيجابية أم سلبية؟”
وأظهرت التجربة أن المتطوعين توصلوا عادة إلى إجابات متشابهة، مما يعكس فهماً أساسياً مشتركاً للتفاعلات البشرية. ومع ذلك، لم تتوصل أنظمة الذكاء الاصطناعي إلى نفس الإجماع الذي توصل إليه المتطوعون عند تفسير مقاطع الفيديو.
وتقول كاثي جارسيا، الباحثة في جامعة جونز هوبكنز والمؤلفة المشاركة في الدراسة: “لا يكفي أن يشاهد نظام الذكاء الاصطناعي مقطع فيديو ويتعرف على الأشكال أو الوجوه”. نحن بحاجة إلى نظام يفهم تطور الأحداث في المشهد، والعلاقات، والسياق، وديناميكيات التفاعلات الاجتماعية. تشير هذه الدراسة إلى أن هذا يُمثل نقطة ضعف في تطوير أنظمة الذكاء الاصطناعي.
وتأتي هذه النتائج في وقت تتنافس فيه شركات التكنولوجيا على دمج أنظمة الذكاء الاصطناعي في عدد متزايد من أجسام الروبوتات، وهو مفهوم أطلق عليه اسم “الذكاء الاصطناعي المجسد”. لقد تم اختبار هذا المفهوم في العديد من المدن الأمريكية، بما في ذلك لوس أنجلوس، وفينيكس، وأوستن. وتسير السيارات ذاتية القيادة في الشوارع جنبًا إلى جنب مع المركبات التي يقودها البشر، مثل سيارات الأجرة من شركات مثل Waymo Robo Taxi.
وأظهرت التجارب أن أنظمة الذكاء الاصطناعي في هذه السيارات تعاني من قيود في فهم بعض مواقف القيادة المعقدة، مثل الدوارات أو الرجوع للخلف عند المنحنيات.
على الرغم من أن بعض الدراسات الحديثة أظهرت أن السيارات ذاتية القيادة قد تكون أقل عرضة للحوادث من السائقين البشر، إلا أن الجهات التنظيمية لا تزال تحقق في تقارير تفيد بأن بعض هذه المركبات انتهكت قواعد السلامة.
واتخذت شركات تكنولوجيا أخرى مثل Boston Dynamics وFigure AI وTesla خطوات أخرى لتطوير الروبوتات البشرية ذات الذكاء الاصطناعي لاستخدامها في البيئات الصناعية جنبًا إلى جنب مع العمال على خطوط الإنتاج.
يعتقد الباحثون أن تمكين أنظمة الذكاء الاصطناعي من فهم الإشارات الاجتماعية بين الأشخاص في البيئات الصناعية له أهمية قصوى لمنع الحوادث في مكان العمل.
وفي السياق ذاته، يقول الباحث إسحاق: “تؤكد هذه الدراسة على أهمية دمج الذكاء الاصطناعي وعلم الأعصاب والعلوم المعرفية بشكل أكبر مع عناصر العالم الحقيقي”.