Какво е TOON?

TOON (Token-Oriented Object Notation) е компактен, четим от хората формат за сериализация на данни, проектиран специално за големи езикови модели (LLMs). За разлика от JSON, който повтаря имена на полета за всеки обект в масив, TOON декларира имена на полета веднъж и след това предава данни в редове—подобно на CSV, но с явна структура. Този дизайн обикновено намалява използването на токени с 30-60% в сравнение с форматиран JSON, особено за еднородни масиви от обекти. TOON комбинира структурата на базата на отстъп на YAML за вложени обекти с табличната ефективност на CSV, оптимизирана за LLM контексти, където разходите за токени имат значение.

Описание на инструмента

Този валидатор проверява синтаксиса на TOON формата за коректност и предоставя подробна статистика за структурата на данните. Той анализира TOON входа, използвайки официалната библиотека @toon-format/toon, валидира синтаксиса и изхвърля всеобхватни метрики, включително брой знаци, брой редове, брой масиви, обекти, примитивни стойности и общ брой полета. Използвайте този инструмент, за да проверите интегритета на TOON данните преди изпращане към LLMs или за анализ на сложността на TOON структурата.

Функции

  • Валидация на синтаксиса - Проверява коректността на TOON формата, използвайки официалния парсер
  • Брой знаци - Общ брой знаци във входа
  • Брой редове - Брой редове в TOON данните
  • Детектиране на масиви - Брои всички масивни структури в данните
  • Детектиране на обекти - Брои всички обектни структури, включително вложени
  • Анализ на примитивни стойности - Брои низове, числа, булеви стойности и null стойности
  • Броене на полета - Общо всички обектни полета в цялата структура
  • Валидация в реално време - Моментална обратна връзка докато пишете
  • Подсветяване на синтаксиса - TOON-специфично подсветяване на код за по-добра четимост
  • Съобщения за грешки - Ясни описания на грешки за невалиден синтаксис

Случаи на употреба

  1. Валидация преди изпращане - Проверете TOON синтаксиса преди изпращане на данни към LLM API, за да избегнете грешки и загубени токени
  2. Анализ на структурата - Разберете сложността на TOON данните, като изследвате броя на масивите, обектите и полетата
  3. Учене на формата - Тестирайте примери на TOON синтаксис, за да научите формата чрез проба и грешка с моментална обратна връзка
  4. Проверка на качеството на данните - Убедете се, че TOON данните са правилно форматирани след генериране или конвертиране от други формати
  5. Оптимизация на токените - Анализирайте TOON структурата, за да идентифицирате възможности за допълнително намаляване на токените

Обяснение на статистиката

Знаци: Общ брой знаци, включително интервали и нови редове. Полезно за сравняване на компактността на TOON спрямо JSON.

Редове: Брой редове във входа. Табличният формат на TOON обикновено използва по-малко редове от форматиран JSON.

Масиви: Брой масивни структури. Табличните масиви на TOON ([N]{fields}:) са по-ефективни по отношение на токените от JSON масивите за еднородни данни.

Обекти: Брой обектни структури. Включва както коренови обекти, така и вложени обекти в йерархията на данните.

Примитивни стойности: Общ брой на всички неком позитни стойности (низове, числа, булеви стойности, null). Показва плътността на данните.

Общо полета: Сума на всички обектни свойства в цялата структура. Високите броя на полетата се възползват най-много от формата на TOON.

Процес на валидация

  1. Анализ на TOON входа - Използва функцията за декодиране на @toon-format/toon, за да анализира входния низ
  2. Валидация на синтаксиса - Ако анализирането е успешно, TOON синтаксисът е валиден; ако хвърли грешка, синтаксисът е невалиден
  3. Анализ на структурата - Рекурсивно преминава през анализираните данни, за да брои масиви, обекти и примитивни стойности
  4. Изчисляване на статистика - Изчислява брой знаци, брой редове и общо полета
  5. Показване на резултатите - Показва статуса на валидацията и подробна статистика в областта за изход

Предимства на TOON формата

  • 30-60% по-малко токени от JSON за еднородни табични данни
  • Явна структура с дължини на масивите и декларации на полета
  • LLM-приятелски с предпазни мерки, които позволяват валидация
  • Четим от хората с минимален синтаксис и ясна структура
  • Безстратна представа на JSON данни без загуба на информация

Кога да използвате TOON

TOON е отличен с:

  • Големи набори от данни с еднородни масивни структури
  • Повторени обекти със същите полета
  • API отговори с последователни схеми
  • Резултати от заявки към база данни с фиксирани колони
  • Всякакви JSON данни, където разходите за токени имат значение

За дълбоко вложени или нееднородни данни, JSON може да остане по-ефективен.