Qu'est-ce que TOON ?

TOON (Token-Oriented Object Notation) est un format de sérialisation de données compact et lisible conçu spécifiquement pour les Grands Modèles de Langage (LLM). Contrairement au JSON, qui répète les noms de champs pour chaque objet dans un tableau, TOON déclare les noms de champs une fois puis transmet les données en lignes—similaire au CSV mais avec une structure explicite. Cette conception réduit généralement l'utilisation de tokens de 30 à 60 % par rapport au JSON formaté, en particulier pour les tableaux uniformes d'objets. TOON combine la structure basée sur l'indentation de YAML pour les objets imbriqués avec l'efficacité tabulaire du CSV, optimisée pour les contextes LLM où les coûts de tokens comptent.

Description de l'outil

Ce validateur vérifie la syntaxe du format TOON pour la correction et fournit des statistiques détaillées sur la structure des données. Il analyse l'entrée TOON en utilisant la bibliothèque officielle @toon-format/toon, valide la syntaxe et génère des métriques complètes incluant le nombre de caractères, de lignes, de tableaux, d'objets, de valeurs primitives et le nombre total de champs. Utilisez cet outil pour vérifier l'intégrité des données TOON avant de les envoyer aux LLM ou pour analyser la complexité de la structure TOON.

Fonctionnalités

  • Validation de syntaxe - Vérifie la correction du format TOON en utilisant le parseur officiel
  • Comptage de caractères - Nombre total de caractères dans l'entrée
  • Comptage de lignes - Nombre de lignes dans les données TOON
  • Détection de tableaux - Compte toutes les structures de tableaux dans les données
  • Détection d'objets - Compte toutes les structures d'objets, y compris celles imbriquées
  • Analyse de primitives - Compte les chaînes, nombres, booléens et valeurs null
  • Comptage de champs - Totalise tous les champs d'objets dans toute la structure
  • Validation en temps réel - Retour immédiat pendant la saisie
  • Coloration syntaxique - Mise en évidence de code spécifique à TOON pour une meilleure lisibilité
  • Messages d'erreur - Descriptions d'erreur claires pour une syntaxe invalide

Cas d'usage

  1. Validation avant soumission - Vérifier la syntaxe TOON avant d'envoyer des données aux API LLM pour éviter les erreurs et les tokens gaspillés
  2. Analyse de structure - Comprendre la complexité des données TOON en examinant les nombres de tableaux, d'objets et de champs
  3. Apprentissage du format - Tester des exemples de syntaxe TOON pour apprendre le format par essais et erreurs avec un retour immédiat
  4. Vérification de qualité des données - Assurer que les données TOON sont correctement formatées après génération ou conversion depuis d'autres formats
  5. Optimisation de tokens - Analyser la structure TOON pour identifier les opportunités de réduction supplémentaire de tokens

Statistiques expliquées

Caractères : Nombre total de caractères incluant espaces et sauts de ligne. Utile pour comparer la compacité de TOON par rapport à JSON.

Lignes : Nombre de lignes dans l'entrée. Le format tabulaire de TOON utilise généralement moins de lignes que le JSON formaté.

Tableaux : Nombre de structures de tableaux. Les tableaux tabulaires de TOON ([N]{fields}:) sont plus efficaces en tokens que les tableaux JSON pour des données uniformes.

Objets : Nombre de structures d'objets. Inclut à la fois les objets racines et les objets imbriqués dans la hiérarchie des données.

Valeurs primitives : Nombre total de toutes les valeurs non-composites (chaînes, nombres, booléens, null). Indique la densité des données.

Total des champs : Somme de toutes les propriétés d'objets dans toute la structure. Les nombres élevés de champs bénéficient le plus du format TOON.

Processus de validation

  1. Analyser l'entrée TOON - Utilise la fonction decode de @toon-format/toon pour analyser la chaîne d'entrée
  2. Valider la syntaxe - Si l'analyse réussit, la syntaxe TOON est valide ; si elle génère une erreur, la syntaxe est invalide
  3. Analyser la structure - Parcourt récursivement les données analysées pour compter tableaux, objets et primitives
  4. Calculer les statistiques - Calcule le nombre de caractères, de lignes et le total de champs
  5. Afficher les résultats - Montre le statut de validation et les statistiques détaillées dans la zone de sortie

Avantages du format TOON

  • 30-60% de tokens en moins que JSON pour des données tabulaires uniformes
  • Structure explicite avec longueurs de tableaux et déclarations de champs
  • Convivial pour les LLM avec des garde-fous permettant la validation
  • Lisible par l'homme avec une syntaxe minimale et une structure claire
  • Représentation sans perte de données JSON sans perte d'information

Quand utiliser TOON

TOON excelle avec :

  • Grands ensembles de données avec structures de tableaux uniformes
  • Objets répétés avec les mêmes champs
  • Réponses API avec schémas cohérents
  • Résultats de requêtes de base de données avec colonnes fixes
  • Toutes données JSON où les coûts de tokens importent

Pour des données profondément imbriquées ou non uniformes, JSON peut rester plus efficace.