O que é um vetor de embedding?

Um vetor de embedding é uma lista de comprimento fixo de números de ponto flutuante que representa um pedaço de dados — uma palavra, frase, imagem ou qualquer outra entrada — em um espaço matemático de alta dimensionalidade. Modelos de aprendizado de máquina como BERT, modelos de incorporação de texto do OpenAI e codificadores de imagem produzem esses vetores para que itens semanticamente similares fiquem geometricamente próximos. Um único embedding pode ter de algumas dezenas a vários milhares de dimensões.

Compreender as propriedades numéricas de um embedding é útil ao depurar modelos, comparar representações vetoriais, detectar anomalias ou otimizar armazenamento e recuperação em um banco de dados vetorial.

Descrição da ferramenta

Esta ferramenta aceita um array JSON de números representando um vetor de embedding e calcula instantaneamente um conjunto de estatísticas descritivas: o número de dimensões, valores mínimo e máximo, média aritmética, desvio padrão, norma L2 (magnitude) e esparsidade. Também exibe as 10 dimensões mais influentes classificadas pelo valor de ativação absoluta.

Recursos

  • Estatísticas instantâneas — dimensões, mín, máx, média, desvio padrão, norma L2 e esparsidade calculados no navegador sem enviar dados para um servidor.
  • Tabela das 10 principais ativações — lista as dez dimensões com os maiores valores absolutos, classificadas por impacto, com seu índice, valor bruto e valor absoluto.
  • Editor JSON com destaque de sintaxe — cole ou digite qualquer array JSON válido diretamente no editor e obtenha resultados em tempo real.