Что такое TOON?

TOON (Token-Oriented Object Notation) — это компактный, читаемый человеком формат сериализации данных, разработанный специально для Больших Языковых Моделей (LLM). В отличие от JSON, который повторяет имена полей для каждого объекта в массиве, TOON объявляет имена полей один раз, а затем передает данные в виде строк — подобно CSV, но с явной структурой. Такой дизайн обычно снижает использование токенов на 30-60% по сравнению с форматированным JSON, особенно для однородных массивов объектов. TOON сочетает структуру на основе отступов YAML для вложенных объектов с табличной эффективностью CSV, оптимизированную для контекстов LLM, где стоимость токенов имеет значение.

Описание инструмента

Этот валидатор проверяет корректность синтаксиса формата TOON и предоставляет подробную статистику о структуре данных. Он анализирует ввод TOON с использованием официальной библиотеки @toon-format/toon, проверяет синтаксис и выводит комплексные метрики, включая количество символов, строк, массивов, объектов, примитивных значений и общее количество полей. Используйте этот инструмент для проверки целостности данных TOON перед отправкой в LLM или для анализа сложности структуры TOON.

Функции

  • Проверка синтаксиса - Проверяет корректность формата TOON с использованием официального парсера
  • Подсчет символов - Общее количество символов во вводе
  • Подсчет строк - Количество строк в данных TOON
  • Обнаружение массивов - Подсчитывает все структуры массивов в данных
  • Обнаружение объектов - Подсчитывает все структуры объектов, включая вложенные
  • Анализ примитивов - Подсчитывает строки, числа, булевы значения и null
  • Подсчет полей - Суммирует все поля объектов во всей структуре
  • Валидация в реальном времени - Мгновенная обратная связь при вводе
  • Подсветка синтаксиса - Специфичная для TOON подсветка кода для лучшей читаемости
  • Сообщения об ошибках - Четкие описания ошибок для неверного синтаксиса

Случаи использования

  1. Валидация перед отправкой - Проверка синтаксиса TOON перед отправкой данных в API LLM, чтобы избежать ошибок и потери токенов
  2. Анализ структуры - Понимание сложности данных TOON путем изучения количества массивов, объектов и полей
  3. Изучение формата - Тестирование примеров синтаксиса TOON для изучения формата через метод проб и ошибок с немедленной обратной связью
  4. Проверка качества данных - Обеспечение правильного форматирования данных TOON после генерации или конвертации из других форматов
  5. Оптимизация токенов - Анализ структуры TOON для выявления возможностей дальнейшего сокращения токенов

Объяснение статистики

Символы: Общее количество символов, включая пробелы и переводы строк. Полезно для сравнения компактности TOON с JSON.

Строки: Количество строк во вводе. Табличный формат TOON обычно использует меньше строк, чем форматированный JSON.

Массивы: Количество структур массивов. Табличные массивы TOON ([N]{fields}:) более эффективны по токенам, чем массивы JSON для однородных данных.

Объекты: Количество структур объектов. Включает как корневые объекты, так и вложенные объекты в иерархии данных.

Примитивные значения: Общее количество всех несоставных значений (строки, числа, булевы значения, null). Указывает на плотность данных.

Всего полей: Сумма всех свойств объектов во всей структуре. Высокое количество полей больше всего выигрывает от формата TOON.

Процесс валидации

  1. Парсинг ввода TOON - Использует функцию decode из @toon-format/toon для разбора входной строки
  2. Проверка синтаксиса - Если парсинг успешен, синтаксис TOON корректен; если выбрасывается ошибка, синтаксис некорректен
  3. Анализ структуры - Рекурсивно обходит разобранные данные для подсчета массивов, объектов и примитивов
  4. Расчет статистики - Вычисляет количество символов, строк и общее количество полей
  5. Отображение результатов - Показывает статус валидации и подробную статистику в области вывода

Преимущества формата TOON

  • На 30-60% меньше токенов, чем JSON для однородных табличных данных
  • Явная структура с длинами массивов и объявлениями полей
  • Дружественность к LLM с механизмами защиты, обеспечивающими валидацию
  • Читаемость человеком с минимальным синтаксисом и четкой структурой
  • Безопотерное представление данных JSON без потери информации

Когда использовать TOON

TOON превосходно подходит для:

  • Больших наборов данных с однородными структурами массивов
  • Повторяющихся объектов с одинаковыми полями
  • Ответов API с согласованными схемами
  • Результатов запросов к базам данных с фиксированными столбцами
  • Любых данных JSON, где важна стоимость токенов

Для глубоко вложенных или неоднородных данных JSON может оставаться более эффективным.