Hva er en embeddings-vektor?

En embeddings-vektor er en liste med fast lengde av desimaltall som representerer et stykke data — et ord, setning, bilde eller annen inndata — i et høydimensjonalt matematisk rom. Machine learning-modeller som BERT, OpenAI's tekst-embeddings-modeller og bildekodere produserer disse vektorene slik at semantisk like elementer ender opp geometrisk nær hverandre. En enkelt embedding kan ha hvor som helst fra noen dusin dimensjoner til flere tusen.

Å forstå de numeriske egenskapene til en embedding er nyttig når du feilsøker modeller, sammenligner vektorrepresentasjoner, oppdager anomalier, eller optimaliserer lagring og henting i en vektordatabase.

Verktøybeskrivelse

Dette verktøyet aksepterer en JSON-matrise av tall som representerer en embeddings-vektor og beregner øyeblikkelig et sett med beskrivende statistikk: antall dimensjoner, minimum- og maksimumsverdier, aritmetisk gjennomsnitt, standardavvik, L2-norm (størrelse) og sparsitet. Det viser også de 10 mest innflytelsesrike dimensjonene rangert etter absolutt aktiveringverdi.

Funksjoner

  • Øyeblikkelig statistikk — dimensjoner, min, maks, gjennomsnitt, standardavvik, L2-norm og sparsitet beregnet i nettleseren uten å sende data til en server.
  • Tabell over 10 beste aktiveringer — viser de ti dimensjonene med de største absolutte verdiene, sortert etter påvirkning, med deres indeks, råverdi og absolutt verdi.
  • JSON-redigerer med syntaksmarkering — lim inn eller skriv inn en hvilken som helst gyldig JSON-matrise direkte i redigereren og få resultater i sanntid.