¿Qué es la similitud vectorial?

La similitud vectorial mide cuán parecidos son dos vectores en un espacio multidimensional. Los vectores son listas ordenadas de números que representan puntos de datos — aparecen en embeddings de aprendizaje automático, sistemas de recomendación, procesamiento de lenguaje natural, reconocimiento de imágenes e informática científica. Comparar dos vectores te indica cuán cercanos o relacionados están los puntos de datos subyacentes.

Se utilizan dos conceptos principales:

  • Similitud: Una puntuación que indica cuán parecidos son dos vectores. Los valores más altos típicamente significan mayor similitud (por ejemplo, una similitud de coseno de 1 significa dirección idéntica).
  • Distancia: Una medida de cuán alejados están dos vectores. Los valores más bajos típicamente significan mayor similitud (por ejemplo, una distancia euclidiana de 0 significa vectores idénticos).

Descripción de la herramienta

Esta herramienta calcula la similitud o distancia entre dos vectores numéricos utilizando más de 50 métodos bien conocidos de teoría de la información, estadística y geometría. Ingresa dos vectores, elige un método de la pestaña de similitud o distancia, y el resultado se calcula instantáneamente en tu navegador.

Ejemplos

Entrada

Vector A: 1, 2, 3
Vector B: 4, 5, 6
Método Resultado
Similitud de coseno 0.9746318461970762
Distancia euclidiana 5.196152422706632
Distancia de Manhattan 16.5

Formatos de entrada aceptados

Todos los siguientes son equivalentes:

1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3

Características

  • Más de 50 métodos — elige entre distancias (Euclidiana, Manhattan, Chebyshev, Coseno, Kullback-Leibler, Jensen-Shannon, y más) o similitudes (Coseno, Jaccard, Dice, Tanimoto, y más)
  • Entrada flexible — acepta valores separados por comas, espacios o puntos y comas con o sin corchetes
  • Resultados instantáneos — todos los cálculos se ejecutan del lado del cliente sin enviar datos a un servidor

Métodos soportados

Métodos de similitud

Método Descripción
Coseno Mide el ángulo entre dos vectores; ampliamente utilizado en PNL y sistemas de recomendación
Kumar-Hassebrook Similitud generalizada que combina Jaccard y coseno
Dice El doble de la intersección dividido por la suma de conteos de elementos
Tanimoto Coeficiente de Jaccard extendido para vectores continuos
Intersección Suma de los mínimos elemento a elemento
Czekanowski Razón del doble de la suma de mínimos a la suma total
Motyka Intersección dividida por la suma de todos los elementos
Kulczynski Media armónica de razones similares a precisión y recall
Squared Chord Basado en las raíces cuadradas de los productos de elementos
Pearson Coeficiente de correlación lineal entre los dos vectores

Métodos de distancia

Método Descripción
Euclidiana Distancia en línea recta en espacio n-dimensional
Euclidiana al cuadrado Distancia euclidiana sin la raíz cuadrada
Manhattan (City Block) Suma de diferencias absolutas elemento a elemento
Chebyshev Diferencia absoluta máxima en todas las dimensiones
Canberra Distancia de Manhattan ponderada sensible a valores cercanos a cero
Sørensen Suma de diferencias absolutas dividida por suma de todos los valores
Gower Media normalizada de diferencias absolutas
Soergel Razón de diferencias absolutas a máximos elemento a elemento
Lorentzian Suma de logaritmos naturales de diferencias absolutas más uno
Clark Distancia ponderada usando diferencias absolutas sobre sumas
Wave Hedges Suma de diferencias absolutas dividida por máximos elemento a elemento
Czekanowski Forma de distancia del coeficiente Czekanowski
Motyka Forma de distancia del coeficiente Motyka
Kulczynski Forma de distancia del coeficiente Kulczynski
Tanimoto Forma de distancia del coeficiente Tanimoto
Ruzicka Complemento de la similitud Ruzicka
Inner Product Producto punto negativo como medida de distancia
Harmonic Mean Distancia basada en medias armónicas de pares de elementos
Jaccard Proporción de componentes no coincidentes
Dice Forma de distancia del coeficiente Dice
Fidelity Basado en la raíz cuadrada de productos de elementos (relacionado con Bhattacharyya)
Bhattacharyya Mide la superposición entre dos distribuciones de probabilidad
Hellinger Raíz cuadrada de la distancia Bhattacharyya
Matusita Raíz cuadrada de la mitad de la suma de diferencias al cuadrado de raíces cuadradas
Squared Chord Forma de distancia del coeficiente Squared Chord
Pearson Forma de distancia del coeficiente de correlación Pearson
Neyman Divergencia tipo chi-cuadrado
Squared Distancia chi-cuadrado al cuadrado
Probabilistic Symmetric Versión simétrica de la divergencia chi-cuadrado
Divergence Distancia al cuadrado doblemente ponderada
Additive Symmetric Promedio de divergencias chi-cuadrado Neyman y Pearson
Kullback-Leibler Divergencia teórica de la información entre distribuciones
Jeffreys Divergencia Kullback-Leibler simétrica
K Divergence Divergencia asimétrica basada en distribución promedio
Topsøe El doble de la divergencia Jensen-Shannon
Jensen-Shannon Versión suavizada y simétrica de Kullback-Leibler
Jensen Difference Basado en la desigualdad de Jensen para funciones convexas
Taneja Divergencia media aritmético-geométrica
Kumar-Johnson Basado en diferencias al cuadrado de potencias pares
Intersection Complemento de la similitud de intersección
Average (City Block + Chebyshev) Media de distancias Manhattan y Chebyshev

Cómo funciona

La herramienta analiza cada entrada de vector en una secuencia de números, elimina corchetes opcionales y divide por comas, espacios o puntos y comas. Luego pasa ambos arreglos a la función seleccionada de la biblioteca ml-distance, que realiza el cálculo en JavaScript puro. Ambos vectores deben tener el mismo número de dimensiones; de lo contrario, la herramienta muestra un error de validación.

Limitaciones

  • Algunos métodos (por ejemplo, Kullback-Leibler, Bhattacharyya) requieren que todos los valores sean estrictamente positivos y sumen 1 (distribuciones de probabilidad). Usar vectores arbitrarios puede producir Infinity o NaN, que la herramienta trata como un error de cálculo.
  • Se soportan vectores muy grandes (miles de dimensiones) pero pueden causar un breve retraso dependiendo del método elegido.