في ظل الانتشار الهائل لتطبيقات الذكاء الاصطناعي. باتت المقارنة بين الأنظمة الكبرى مثل شات جي بي تي من OpenAI وجيميني من غوغل أمرًا معقدًا. خصوصًا مع التسارع الكبير في وتيرة التطوير.
في ديسمبر 2025. سادت تكهنات حول تراجع OpenAI في سباق الذكاء الاصطناعي. قبل أن تقلب الشركة المعادلة بإطلاق ChatGPT-5.2. الذي أعادها إلى صدارة معظم التصنيفات.
لكن مع تقارب قدرات النماذج اللغوية الضخمة. لم تعد المقارنات السطحية المبنية على إجابة واحدة لسؤال واحد كافية أو دقيقة.
تفوق شات جي بي تي في المعايير الرئيسية
فالردود بطبيعتها عشوائية جزئيًا. كما أن أسلوب المحادثة يمكن تخصيصه بسهولة. لذلك. يبقى الاحتكام إلى الاختبارات المعيارية Benchmarks هو الطريق الأكثر موضوعية لتقييم الأداء الحقيقي. بحسب تقرير نشره موقع slashgear.
وفيما يلي ثلاثة معايير رئيسية يظهر فيها تفوق شات جي بي تي على جيميني. وفق أحدث النتائج المتاحة:
أول هذه المعايير هو اختبار GPQA Diamond. المصمم لقياس قدرات التفكير العلمي على مستوى الدكتوراه في الفيزياء والكيمياء والأحياء.
تحليل أداء شات جي بي تي وجيميني
ويُعرف هذا الاختبار بأسئلته المحصنة ضد غوغل. إذ لا يمكن حلها عبر البحث السريع. بل تتطلب ربط مفاهيم متعددة وتجنب الافتراضات الخاطئة.
في هذا الاختبار. سجل ChatGPT-5.2 نسبة 92.4%. متقدمًا بفارق طفيف على Gemini 3 Pro الذي حقق 91.9%.
وللمقارنة. يُتوقع من حملة الدكتوراه تحقيق نحو 65% فقط. بينما لا يتجاوز متوسط غير المتخصصين 34%. ما يبرز المستوى العالي لكلا النموذجين. مع أفضلية بسيطة لشات جي بي تي.
الاختبارات المعقدة ودورها في تقييم الأداء
المعيار الثاني هو SWE-Bench Pro (Private Dataset). الذي يقيس قدرة الذكاء الاصطناعي على حل مشكلات برمجية حقيقية مأخوذة من بلاغات فعلية على منصة GitHub.
ويتطلب هذا الاختبار فهم قاعدة كود غير مألوفة. وتحليل وصف المشكلة. ثم تقديم حل عملي قابل للتنفيذ.
وفق النتائج. نجح ChatGPT-5.2 في حل نحو 24% من المشكلات. مقابل 18% فقط لجيميني.







