مصادر ترجّح استخدام DeepSeek لبيانات ChatGPT في تدريبه

تقرير جديد صادر عن شركة Copyleaks، المتخصصة في تحليل النصوص واكتشاف التشابهات الأسلوبية، يشير إلى أن نموذج الذكاء الاصطناعي DeepSeek-R1 قد يكون قد دُرّب باستخدام مخرجات ChatGPT التابع لشركة OpenAI. وفقًا للدراسة، فإن الأسلوب اللغوي للنموذج يتطابق مع أسلوب OpenAI بنسبة 74.2%، مما يثير تساؤلات حول مصادر البيانات التي استخدمتها شركة DeepSeek في تدريب نموذجها.

التحليل اعتمد على ثلاثة مصنفات ذكاء اصطناعي مدربة على بيانات من أربعة نماذج رئيسية، وهي Claude وGemini وLlama وOpenAI. وأظهرت النتائج أن DeepSeek-R1 يتبع نمطًا كتابيًا مشابهًا جدًا لـ ChatGPT، وهو ما يشير إلى احتمال استخدام بياناته بشكل مباشر أو غير مباشر في تدريب النموذج الصيني. وتدعم هذه الفرضية حقيقة أن DeepSeek سبق وأعلنت استخدام تقنية التقطير (Distillation)، وهي طريقة يتم فيها تدريب نموذج أصغر باستخدام مخرجات نموذج أكبر وأكثر تقدمًا، مما يقلل التكاليف ويسرّع عملية التدريب.

هذه النتائج تأتي في وقت يشهد فيه سوق الذكاء الاصطناعي منافسة شديدة، حيث أثار إطلاق نماذج DeepSeek اضطرابًا كبيرًا في سوق التكنولوجيا، مما أدى إلى خسائر فادحة بلغت تريليون دولار في سوق الأسهم الأمريكية. كما تضررت أسهم شركات مثل إنفيديا، التي تعتمد بشكل أساسي على بيع العتاد المستخدم في تطوير الذكاء الاصطناعي.

لم تقدم DeepSeek حتى الآن تفاصيل واضحة عن مصادر بياناتها التدريبية، مما يثير مخاوف بشأن شرعية نموذجها ومدى موثوقيته. وكانت OpenAI قد اتهمت DeepSeek سابقًا باستخدام مخرجات ChatGPT دون إذن، لكنها لم تقدم أدلة قاطعة على ذلك. ومع تصاعد الجدل حول هذه القضية، يتوقع بعض الخبراء أن DeepSeek قد تواجه قيودًا أو حتى حظرًا في الولايات المتحدة خلال الفترة القادمة، في ظل تصاعد التوترات حول استخدام البيانات في تدريب نماذج الذكاء الاصطناعي.

مقالات ذات صلة

اترك تعليقاً إلغاء الرد