ما هو التجزئة في نماذج اللغة للذكاء الاصطناعي؟

التجزئة هي العملية التي يتم من خلالها تقسيم النص إلى وحدات أصغر تُسمى الرموز (tokens)، والتي تستخدمها نماذج اللغة للذكاء الاصطناعي لفهم النص ومعالجته. يمكن أن يكون الرمز كلمة، أو جزءًا من كلمة، أو حتى حرفًا واحدًا. على سبيل المثال، قد تكون كلمة "hello" رمزًا واحدًا، بينما قد تُقسم كلمة "unprecedented" إلى عدة رموز مثل "un"، "pre"، "cedent"، و"ed". فهم التجزئة أمر حاسم لأن نماذج الذكاء الاصطناعي لديها حدود للرموز في المدخلات والمخرجات، وغالبًا ما تُحسب تكاليف API بناءً على عدد الرموز المستخدمة.

وصف الأداة

تتيح لك أداة GPT Tokenizer رؤية كيفية تجزئة النص المدخل بواسطة نماذج GPT المختلفة من OpenAI. يمكنك إدخال أي نص واختيار نموذج من مجموعة واسعة من نماذج GPT لتظهر لك تفاصيل الرموز مع تصور ملون. يتم تمييز كل رمز بلون فريد، مما يسهل فهم طريقة معالجة النموذج للنص. تعرض الأداة إجمالي عدد الرموز وتظهر الأحرف الخاصة (المسافات كنقاط والمسافات السطرية كأسهم) لتحسين الرؤية.

أمثلة

الإدخال:

  • النموذج: GPT-5
  • النص: "Hello, how are you today?"

الإخراج:

  • عدد الرموز: 7
  • التصور: كل كلمة/علامة ترقيم تُعرض بألوان مختلفة

الميزات

  • دعم نماذج متعددة: اختر من أكثر من 30 نموذجًا من نماذج GPT وOpenAI
  • تجزئة في الوقت الحقيقي: شاهد الرموز تتحدث فورًا أثناء الكتابة
  • تصور ملون: يحصل كل رمز على لون فريد لتسهيل التعرف عليه

النماذج المدعومة

تدعم الأداة النماذج التالية من OpenAI:

سلسلة ChatGPT:

  • ChatGPT-4o Latest

سلسلة GPT-5:

  • GPT-5
  • GPT-5 Pro
  • GPT-5 mini
  • GPT-5 nano

سلسلة GPT-4.x:

  • GPT-4.5 Preview
  • GPT-4.1
  • GPT-4.1 mini
  • GPT-4.1 nano

سلسلة GPT-4:

  • GPT-4o
  • GPT-4o mini
  • GPT-4
  • GPT-4 turbo

سلسلة GPT-3.5:

  • GPT-3.5 turbo
  • GPT-3.5 turbo instruct

سلسلة O (نماذج الاستدلال):

  • o4-mini
  • o3
  • o3-mini
  • o3-pro
  • o1
  • o1-mini
  • o1-preview
  • o1-pro

النماذج القديمة:

  • text-davinci-003
  • text-davinci-002
  • text-davinci-001