ما هو التجزئة في نماذج اللغة للذكاء الاصطناعي؟

التجزئة هي العملية التي يتم من خلالها تقسيم النص إلى وحدات أصغر تُسمى الرموز (tokens)، والتي تستخدمها نماذج اللغة للذكاء الاصطناعي لفهم النص ومعالجته. يمكن أن يكون الرمز كلمة، أو جزءًا من كلمة، أو حتى حرفًا واحدًا. على سبيل المثال، قد تكون كلمة "hello" رمزًا واحدًا، بينما قد تُقسم كلمة "unprecedented" إلى عدة رموز مثل "un"، "pre"، "cedent"، و"ed". فهم التجزئة أمر حاسم لأن نماذج الذكاء الاصطناعي لديها حدود للرموز في المدخلات والمخرجات، وغالبًا ما تُحسب تكاليف API بناءً على عدد الرموز المستخدمة.

وصف الأداة

تتيح لك أداة GPT Tokenizer رؤية كيفية تجزئة النص المدخل بواسطة نماذج GPT المختلفة من OpenAI. يمكنك إدخال أي نص واختيار نموذج من مجموعة واسعة من نماذج GPT لتظهر لك تفاصيل الرموز مع تصور ملون. يتم تمييز كل رمز بلون فريد، مما يسهل فهم طريقة معالجة النموذج للنص. تعرض الأداة إجمالي عدد الرموز وتظهر الأحرف الخاصة (المسافات كنقاط والمسافات السطرية كأسهم) لتحسين الرؤية.

أمثلة

الإدخال:

  • النموذج: GPT-5
  • النص: "Hello, how are you today?"

الإخراج:

  • عدد الرموز: 7
  • التصور: كل كلمة/علامة ترقيم تُعرض بألوان مختلفة

الميزات

  • دعم نماذج متعددة: اختر من أكثر من 30 نموذجًا من نماذج GPT وOpenAI
  • تجزئة في الوقت الحقيقي: شاهد الرموز تتحدث فورًا أثناء الكتابة
  • تصور ملون: يحصل كل رمز على لون فريد لتسهيل التعرف عليه
  • عرض الأحرف الخاصة: تُظهر المسافات كنقاط (·) والأسطر كسهم (↵)
  • عدد الرموز: عرض فوري لإجمالي عدد الرموز المستخدمة
  • ترميز خاص بالنموذج: يستخدم كل نموذج قواعد تجزئة خاصة به

النماذج المدعومة

تدعم الأداة النماذج التالية من OpenAI:

سلسلة ChatGPT:

  • ChatGPT-4o Latest

سلسلة GPT-5:

  • GPT-5
  • GPT-5 Pro
  • GPT-5 mini
  • GPT-5 nano

سلسلة GPT-4.x:

  • GPT-4.5 Preview
  • GPT-4.1
  • GPT-4.1 mini
  • GPT-4.1 nano

سلسلة GPT-4:

  • GPT-4o
  • GPT-4o mini
  • GPT-4
  • GPT-4 turbo

سلسلة GPT-3.5:

  • GPT-3.5 turbo
  • GPT-3.5 turbo instruct

سلسلة O (نماذج الاستدلال):

  • o4-mini
  • o3
  • o3-mini
  • o3-pro
  • o1
  • o1-mini
  • o1-preview
  • o1-pro

النماذج القديمة:

  • text-davinci-003
  • text-davinci-002
  • text-davinci-001

حالات الاستخدام

  • **تقدير تكلفة API**: حساب استهلاك الرموز قبل إجراء مكالمات **API** لتقدير التكاليف
  • تحسين النص: تقليل عدد الرموز عبر فهم طريقة تجزئة النص
  • تخطيط نافذة السياق: التأكد من أن النصوص تتناسب مع حدود الرموز للنموذج
  • تصحيح استجابات الذكاء الاصطناعي: فهم سبب إنتاج مدخلات معينة لمخرجات غير متوقعة
  • أغراض تعليمية: تعلم كيفية معالجة النماذج المختلفة للتجزئة بشكل مختلف
  • تخطيط طول المحتوى: تخطيط المحتوى ليتناسب مع قيود الرموز