Was ist ein Embedding-Vektor?

Ein Embedding-Vektor ist eine Liste mit fester Länge von Gleitkommazahlen, die ein Datenelement darstellt — ein Wort, einen Satz, ein Bild oder eine andere Eingabe — in einem hochdimensionalen mathematischen Raum. Machine-Learning-Modelle wie BERT, OpenAIs Text-Embedding-Modelle und Bild-Encoder erzeugen diese Vektoren so, dass semantisch ähnliche Elemente geometrisch nah beieinander liegen. Ein einzelnes Embedding kann zwischen einigen Dutzend bis zu mehreren Tausend Dimensionen haben.

Das Verständnis der numerischen Eigenschaften eines Embeddings ist nützlich beim Debuggen von Modellen, beim Vergleich von Vektordarstellungen, beim Erkennen von Anomalien oder beim Optimieren von Speicherung und Abruf in einer Vektordatenbank.

Werkzeugbeschreibung

Dieses Werkzeug akzeptiert ein JSON-Array von Zahlen, das einen Embedding-Vektor darstellt, und berechnet sofort eine Reihe von beschreibenden Statistiken: die Anzahl der Dimensionen, Mindest- und Maximalwerte, arithmetisches Mittel, Standardabweichung, L2-Norm (Magnitude) und Sparsität. Es zeigt auch die 10 einflussreichsten Dimensionen, sortiert nach absolutem Aktivierungswert.

Funktionen

  • Sofortige Statistiken — Dimensionen, Min, Max, Mittelwert, Standardabweichung, L2-Norm und Sparsität werden im Browser berechnet, ohne Daten an einen Server zu senden.
  • Tabelle der Top 10 Aktivierungen — listet die zehn Dimensionen mit den größten Absolutwerten auf, sortiert nach Auswirkung, mit ihrem Index, Rohwert und Absolutwert.
  • JSON-Editor mit Syntax-Hervorhebung — fügen Sie ein beliebiges gültiges JSON-Array direkt in den Editor ein oder geben Sie es ein und erhalten Sie Ergebnisse in Echtzeit.