¿Qué es un vector de embedding?

Un vector de embedding es una lista de longitud fija de números de punto flotante que representa un fragmento de datos — una palabra, oración, imagen o cualquier otra entrada — en un espacio matemático de alta dimensionalidad. Los modelos de aprendizaje automático como BERT, los modelos de incrustación de texto de OpenAI y los codificadores de imágenes producen estos vectores de modo que los elementos semánticamente similares terminen geométricamente cerca uno del otro. Un único embedding puede tener desde algunas docenas de dimensiones hasta varios miles.

Comprender las propiedades numéricas de un embedding es útil cuando se depuran modelos, se comparan representaciones vectoriales, se detectan anomalías u se optimiza el almacenamiento y la recuperación en una base de datos vectorial.

Descripción de la herramienta

Esta herramienta acepta un array JSON de números que representan un vector de embedding y calcula instantáneamente un conjunto de estadísticas descriptivas: el número de dimensiones, valores mínimo y máximo, media aritmética, desviación estándar, norma L2 (magnitud) y dispersión. También muestra las 10 dimensiones más influyentes clasificadas por valor de activación absoluto.

Características

  • Estadísticas instantáneas — dimensiones, mín, máx, media, desviación estándar, norma L2 y dispersión calculadas en el navegador sin enviar datos a un servidor.
  • Tabla de las 10 activaciones principales — enumera las diez dimensiones con los valores absolutos más grandes, ordenadas por impacto, con su índice, valor bruto y valor absoluto.
  • Editor JSON con resaltado de sintaxis — pega o escribe cualquier array JSON válido directamente en el editor y obtén resultados en tiempo real.