الجدل حول نموذج DeepSeek الصيني: هل استخدمت بيانات من Google Gemini؟

في تطور لافت ضمن سباق تطوير نماذج الذكاء الاصطناعي، أثارت شركة DeepSeek الصينية جدلاً واسعًا بعد إطلاق الإصدار الأحدث من نموذجها “R1-0528” ، الذي أظهر أداءً قويًا في اختبارات البرمجة والرياضيات ومع ذلك، تصاعدت الشكوك حول مصدر البيانات التي استخدمتها الشركة في تدريب هذا النموذج، حيث يُعتقد أنها قد تكون مشتقة من عائلة نماذج Gemini التابعة لشركة Google .

الادعاءات والشبهات

1. تحليل المخرجات اللغوية

المطور سام بيتش ، المقيم في ملبورن، نشر على منصة X (المعروفة سابقًا باسم Twitter) ادعاءً بأن نموذج DeepSeek R1-0528 يعتمد بشكل واضح على مخرجات نموذج Gemini 2.5 Pro وأشار إلى أن التراكيب اللغوية والتعبيرات المستخدمة في إجابات النموذج تظهر تشابهًا كبيرًا مع تلك الخاصة بـ Gemini .

2. آثار التفكير والاستدلالات

أكد مطور آخر، صاحب مشروع SpeechMap لتقييم “حرية التعبير” في الذكاء الاصطناعي، أن “آثار التفكير” التي يولدها نموذج DeepSeek — أي الخطوات المنطقية التي يتبعها للوصول إلى استنتاج — تشبه بشكل ملحوظ تلك الخاصة بـ Gemini .

السابق: اتهامات مشابهة ضد DeepSeek

هذه ليست المرة الأولى التي تتهم فيها DeepSeek باستخدام بيانات من نماذج منافسة.

في ديسمبر الماضي، لاحظ المطورون أن نموذج DeepSeek V3 كان يعرّف عن نفسه على أنه ChatGPT في بعض الحالات، مما أثار تكهنات حول استخدام سجلات محادثات من منصة OpenAI في تدريب النموذج.
وأكدت OpenAI لصحيفة فاينانشال تايمز أنها رصدت مؤشرات تثبت لجوء DeepSeek إلى تقنية التقطير (Distillation) ، وهي تقنية تُستخدم لاستخلاص المعرفة من نماذج أكبر وأكثر تطورًا.

عمليات استخراج البيانات وانتهاكات الشروط

وفقًا لتقرير بلومبرغ ، رصدت Microsoft ، الشريك المقرب لـ OpenAI ، في أواخر عام 2024 عملية استخراج بيانات ضخمة من خلال حسابات مطورين مرتبطة بـ DeepSeek .

شروط خدمة OpenAI تمنع استخدام مخرجات نماذجها لتطوير نماذج منافسة، لكن تقنية التقطيس تظل شائعة في المجال.
المشكلة الرئيسية تكمن في تلوث الإنترنت بمحتوى مولد عبر الذكاء الاصطناعي ، حيث تنتشر المقالات الرديئة المصنوعة آليًا وتغمر الروبوتات منصات مثل Reddit وX ، مما يجعل من الصعب تنقية بيانات التدريب من المخرجات الآلية.

ردود الفعل والتوجهات الجديدة

1. إجراءات الحماية من الشركات الكبرى

OpenAI : بدأت في أبريل الماضي بفرض عملية تحقق من الهوية للمؤسسات التي ترغب في استخدام نماذجها المتقدمة، مما يتطلب تقديم بطاقة تعريف حكومية — قائمة الدول

المدعومة لا تشمل الصين .

Google : بدأت بتلخيص آثار التفكير التي تنتجها نماذجها عبر منصة AI Studio ، مما يصعّب على الجهات المنافسة استخدام تلك الآثار لتدريب نماذج مقلدة.
Anthropic : أعلنت في مايو أنها ستتبع نفس النهج لحماية مزاياها التنافسية.

2. تعليق الخبراء

قال ناثان لامبرت ، الباحث في معهد AI2 غير الربحي:

“لو كنت في موقع DeepSeek، لاستخدمت أفضل النماذج المتاحة لإنتاج كميات كبيرة من البيانات الاصطناعية لديهم المال، لكنهم يفتقرون إلى وحدات معالجة الرسوميات، لذا الأمر فعليًا يعادل امتلاك قدرة حوسبة إضافية.”

التحديات القانونية والأخلاقية

رغم شيوع تقنية التقطيس، فإن استخدام بيانات منافسين دون إذن يثير تساؤلات قانونية وأخلاقية.

Google لم تعلّق رسميًا حتى الآن على هذه المزاعم، لكن الجهات الإعلامية تسعى للحصول على رد رسمي من الشركة.
الشركات الكبرى تسعى الآن لتعزيز إجراءاتها الأمنية لحماية مخرجات نماذجها ومنع استخدامها بشكل غير قانوني