Che cos'è un vettore di embedding?

Un vettore di embedding è un elenco di lunghezza fissa di numeri in virgola mobile che rappresenta un pezzo di dati — una parola, una frase, un'immagine o qualsiasi altro input — in uno spazio matematico ad alta dimensionalità. Modelli di machine learning come BERT, i modelli di text-embedding di OpenAI e gli encoder di immagini producono questi vettori in modo che elementi semanticamente simili finiscano geometricamente vicini tra loro. Un singolo embedding può avere da poche decine a diverse migliaia di dimensioni.

Comprendere le proprietà numeriche di un embedding è utile quando si eseguono il debug dei modelli, si confrontano rappresentazioni vettoriali, si rilevano anomalie o si ottimizza l'archiviazione e il recupero in un database vettoriale.

Descrizione dello strumento

Questo strumento accetta un array JSON di numeri che rappresentano un vettore di embedding e calcola istantaneamente un insieme di statistiche descrittive: il numero di dimensioni, i valori minimo e massimo, la media aritmetica, la deviazione standard, la norma L2 (magnitudine) e la sparsità. Evidenzia anche le 10 dimensioni più influenti classificate per valore di attivazione assoluto.

Funzionalità

  • Statistiche istantanee — dimensioni, minimo, massimo, media, deviazione standard, norma L2 e sparsità calcolati nel browser senza inviare dati a un server.
  • Tabella delle 10 attivazioni principali — elenca le dieci dimensioni con i valori assoluti più grandi, ordinate per impatto, con il loro indice, valore grezzo e valore assoluto.
  • Editor JSON con evidenziazione della sintassi — incolla o digita qualsiasi array JSON valido direttamente nell'editor e ottieni risultati in tempo reale.