Qu'est-ce qu'un vecteur d'embedding ?

Un vecteur d'embedding est une liste de longueur fixe de nombres à virgule flottante qui représente un élément de données — un mot, une phrase, une image ou toute autre entrée — dans un espace mathématique de haute dimension. Les modèles d'apprentissage automatique tels que BERT, les modèles text-embedding d'OpenAI et les encodeurs d'images produisent ces vecteurs de sorte que les éléments sémantiquement similaires se retrouvent géométriquement proches les uns des autres. Un seul embedding peut avoir n'importe où de quelques dizaines de dimensions à plusieurs milliers.

Comprendre les propriétés numériques d'un embedding est utile lors du débogage de modèles, de la comparaison de représentations vectorielles, de la détection d'anomalies ou de l'optimisation du stockage et de la récupération dans une base de données vectorielle.

Description de l'outil

Cet outil accepte un tableau JSON de nombres représentant un vecteur d'embedding et calcule instantanément un ensemble de statistiques descriptives : le nombre de dimensions, les valeurs minimales et maximales, la moyenne arithmétique, l'écart-type, la norme L2 (magnitude) et la parcimonie. Il met également en évidence les 10 dimensions les plus influentes classées par valeur d'activation absolue.

Fonctionnalités

  • Statistiques instantanées — dimensions, min, max, moyenne, écart-type, norme L2 et parcimonie calculés dans le navigateur sans envoyer de données à un serveur.
  • Tableau des 10 activations principales — répertorie les dix dimensions avec les plus grandes valeurs absolues, triées par impact, avec leur index, leur valeur brute et leur valeur absolue.
  • Éditeur JSON avec coloration syntaxique — collez ou tapez n'importe quel tableau JSON valide directement dans l'éditeur et obtenez les résultats en temps réel.