Hva er TOON?

TOON (Token-Oriented Object Notation) er et kompakt, menneskelesbart dataserialiseringsformat designet spesifikt for Store Språkmodeller (LLMs). I motsetning til JSON, som gjentar feltnavn for hvert objekt i en array, deklarerer TOON feltnavnene én gang og overfører deretter data i rader—lignende CSV men med eksplisitt struktur. Denne designen reduserer typisk tokenbruk med 30-60% sammenlignet med formatert JSON, spesielt for uniforme arrays av objekter. TOON kombinerer YAMLs innrykksbaserte struktur for nestede objekter med CSVs tabellære effektivitet, optimalisert for LLM-kontekster hvor tokenkostnader betyr noe.

Verktøybeskrivelse

Denne validatoren sjekker TOON-format syntaks for korrekthet og gir detaljert statistikk om datastrukturen. Den analyserer TOON-input ved å bruke det offisielle @toon-format/toon-biblioteket, validerer syntaksen og genererer omfattende metrikker inkludert tegnantall, linjeantall, antall arrays, objekter, primitive verdier og totalt feltantall. Bruk dette verktøyet for å verifisere TOON-dataintegritet før sending til LLMs eller for å analysere TOON-strukturkompleksitet.

Funksjoner

  • Syntaksvalidering - Verifiserer TOON-formatets korrekthet ved hjelp av offisiell parser
  • Tegntelling - Totalt antall tegn i inputen
  • Linjetelling - Antall linjer i TOON-dataene
  • Array-deteksjon - Teller alle array-strukturer i dataene
  • Objekt-deteksjon - Teller alle objektstrukturer inkludert nestede
  • Primitiv-analyse - Teller strenger, tall, boolske verdier og null-verdier
  • Felttelling - Summerer alle objektfelter i hele strukturen
  • Sanntidsvalidering - Umiddelbar tilbakemelding mens du skriver
  • Syntaksutheving - TOON-spesifikk kodeutheving for bedre lesbarhet
  • Feilmeldinger - Klare feilbeskrivelser for ugyldig syntaks

Bruksområder

  1. Validering før innsending - Verifiser TOON-syntaks før sending av data til LLM-APIer for å unngå feil og sløste tokens
  2. Strukturanalyse - Forstå kompleksiteten til TOON-data ved å undersøke antall arrays, objekter og felter
  3. Formatlæring - Test TOON-syntakseksempler for å lære formatet gjennom prøving og feiling med umiddelbar tilbakemelding
  4. Datakvalitetskontroll - Sikre at TOON-data er riktig formatert etter generering eller konvertering fra andre formater
  5. Tokenoptimalisering - Analyser TOON-struktur for å identifisere muligheter for ytterligere tokenreduksjon

Statistikk forklart

Tegn: Totalt tegnantall inkludert mellomrom og linjeskift. Nyttig for å sammenligne TOONs kompakthet mot JSON.

Linjer: Antall linjer i inputen. TOONs tabellære format bruker typisk færre linjer enn formatert JSON.

Arrays: Antall array-strukturer. TOONs tabellære arrays ([N]{fields}:) er mer tokeneffektive enn JSON-arrays for uniforme data.

Objekter: Antall objektstrukturer. Inkluderer både rotobjekter og nestede objekter i datahierarkiet.

Primitive verdier: Totalt antall alle ikke-sammensatte verdier (strenger, tall, boolske verdier, null). Indikerer datatetthet.

Totalt antall felter: Sum av alle objektegenskaper i hele strukturen. Høye feltantall drar mest nytte av TOON-formatet.

Valideringsprosess

  1. Parse TOON-input - Bruker decode-funksjonen fra @toon-format/toon for å parse inputstrengen
  2. Valider syntaks - Hvis parsingen lykkes, er TOON-syntaksen gyldig; hvis den kaster en feil, er syntaksen ugyldig
  3. Analyser struktur - Gjennomgår rekursivt de parsede dataene for å telle arrays, objekter og primitiver
  4. Beregn statistikk - Beregner tegnantall, linjeantall og feltotaler
  5. Vis resultater - Viser valideringsstatus og detaljert statistikk i outputområdet

Fordeler med TOON-format

  • 30-60% færre tokens enn JSON for uniforme tabelldata
  • Eksplisitt struktur med array-lengder og feltdeklarasjoner
  • LLM-vennlig med beskyttelsesmekanismer som muliggjør validering
  • Menneskelesbar med minimal syntaks og klar struktur
  • Tapsfri representasjon av JSON-data uten informasjonstap

Når bruke TOON

TOON utmerker seg med:

  • Store datasett med uniforme array-strukturer
  • Repeterte objekter med samme felter
  • API-responser med konsistente skjemaer
  • Database-spørringsresultater med faste kolonner
  • Alle JSON-data hvor tokenkostnader betyr noe

For dypt nestede eller ikke-uniforme data kan JSON forbli mer effektivt.