Calculadora de Similitud de Vectores
Calcula la distancia y similitud entre vectores numéricos utilizando métodos que incluyen coseno, euclidiano, jaccard y más.
Entrada
Salida
Leerme
¿Qué es la similitud vectorial?
La similitud vectorial mide cuán parecidos son dos vectores en un espacio multidimensional. Los vectores son listas ordenadas de números que representan puntos de datos — aparecen en embeddings de aprendizaje automático, sistemas de recomendación, procesamiento de lenguaje natural, reconocimiento de imágenes e informática científica. Comparar dos vectores te indica cuán cercanos o relacionados están los puntos de datos subyacentes.
Se utilizan dos conceptos principales:
- Similitud: Una puntuación que indica cuán parecidos son dos vectores. Los valores más altos típicamente significan mayor similitud (por ejemplo, una similitud de coseno de 1 significa dirección idéntica).
- Distancia: Una medida de cuán alejados están dos vectores. Los valores más bajos típicamente significan mayor similitud (por ejemplo, una distancia euclidiana de 0 significa vectores idénticos).
Descripción de la herramienta
Esta herramienta calcula la similitud o distancia entre dos vectores numéricos utilizando más de 50 métodos bien conocidos de teoría de la información, estadística y geometría. Ingresa dos vectores, elige un método de la pestaña de similitud o distancia, y el resultado se calcula instantáneamente en tu navegador.
Ejemplos
Entrada
Vector A: 1, 2, 3
Vector B: 4, 5, 6| Método | Resultado |
|---|---|
| Similitud de coseno | 0.9746318461970762 |
| Distancia euclidiana | 5.196152422706632 |
| Distancia de Manhattan | 16.5 |
Formatos de entrada aceptados
Todos los siguientes son equivalentes:
1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3Características
- Más de 50 métodos — elige entre distancias (Euclidiana, Manhattan, Chebyshev, Coseno, Kullback-Leibler, Jensen-Shannon, y más) o similitudes (Coseno, Jaccard, Dice, Tanimoto, y más)
- Entrada flexible — acepta valores separados por comas, espacios o puntos y comas con o sin corchetes
- Resultados instantáneos — todos los cálculos se ejecutan del lado del cliente sin enviar datos a un servidor
Métodos soportados
Métodos de similitud
| Método | Descripción |
|---|---|
| Coseno | Mide el ángulo entre dos vectores; ampliamente utilizado en PNL y sistemas de recomendación |
| Kumar-Hassebrook | Similitud generalizada que combina Jaccard y coseno |
| Dice | El doble de la intersección dividido por la suma de conteos de elementos |
| Tanimoto | Coeficiente de Jaccard extendido para vectores continuos |
| Intersección | Suma de los mínimos elemento a elemento |
| Czekanowski | Razón del doble de la suma de mínimos a la suma total |
| Motyka | Intersección dividida por la suma de todos los elementos |
| Kulczynski | Media armónica de razones similares a precisión y recall |
| Squared Chord | Basado en las raíces cuadradas de los productos de elementos |
| Pearson | Coeficiente de correlación lineal entre los dos vectores |
Métodos de distancia
| Método | Descripción |
|---|---|
| Euclidiana | Distancia en línea recta en espacio n-dimensional |
| Euclidiana al cuadrado | Distancia euclidiana sin la raíz cuadrada |
| Manhattan (City Block) | Suma de diferencias absolutas elemento a elemento |
| Chebyshev | Diferencia absoluta máxima en todas las dimensiones |
| Canberra | Distancia de Manhattan ponderada sensible a valores cercanos a cero |
| Sørensen | Suma de diferencias absolutas dividida por suma de todos los valores |
| Gower | Media normalizada de diferencias absolutas |
| Soergel | Razón de diferencias absolutas a máximos elemento a elemento |
| Lorentzian | Suma de logaritmos naturales de diferencias absolutas más uno |
| Clark | Distancia ponderada usando diferencias absolutas sobre sumas |
| Wave Hedges | Suma de diferencias absolutas dividida por máximos elemento a elemento |
| Czekanowski | Forma de distancia del coeficiente Czekanowski |
| Motyka | Forma de distancia del coeficiente Motyka |
| Kulczynski | Forma de distancia del coeficiente Kulczynski |
| Tanimoto | Forma de distancia del coeficiente Tanimoto |
| Ruzicka | Complemento de la similitud Ruzicka |
| Inner Product | Producto punto negativo como medida de distancia |
| Harmonic Mean | Distancia basada en medias armónicas de pares de elementos |
| Jaccard | Proporción de componentes no coincidentes |
| Dice | Forma de distancia del coeficiente Dice |
| Fidelity | Basado en la raíz cuadrada de productos de elementos (relacionado con Bhattacharyya) |
| Bhattacharyya | Mide la superposición entre dos distribuciones de probabilidad |
| Hellinger | Raíz cuadrada de la distancia Bhattacharyya |
| Matusita | Raíz cuadrada de la mitad de la suma de diferencias al cuadrado de raíces cuadradas |
| Squared Chord | Forma de distancia del coeficiente Squared Chord |
| Pearson | Forma de distancia del coeficiente de correlación Pearson |
| Neyman | Divergencia tipo chi-cuadrado |
| Squared | Distancia chi-cuadrado al cuadrado |
| Probabilistic Symmetric | Versión simétrica de la divergencia chi-cuadrado |
| Divergence | Distancia al cuadrado doblemente ponderada |
| Additive Symmetric | Promedio de divergencias chi-cuadrado Neyman y Pearson |
| Kullback-Leibler | Divergencia teórica de la información entre distribuciones |
| Jeffreys | Divergencia Kullback-Leibler simétrica |
| K Divergence | Divergencia asimétrica basada en distribución promedio |
| Topsøe | El doble de la divergencia Jensen-Shannon |
| Jensen-Shannon | Versión suavizada y simétrica de Kullback-Leibler |
| Jensen Difference | Basado en la desigualdad de Jensen para funciones convexas |
| Taneja | Divergencia media aritmético-geométrica |
| Kumar-Johnson | Basado en diferencias al cuadrado de potencias pares |
| Intersection | Complemento de la similitud de intersección |
| Average (City Block + Chebyshev) | Media de distancias Manhattan y Chebyshev |
Cómo funciona
La herramienta analiza cada entrada de vector en una secuencia de números, elimina corchetes opcionales y divide por comas, espacios o puntos y comas. Luego pasa ambos arreglos a la función seleccionada de la biblioteca ml-distance, que realiza el cálculo en JavaScript puro. Ambos vectores deben tener el mismo número de dimensiones; de lo contrario, la herramienta muestra un error de validación.
Limitaciones
- Algunos métodos (por ejemplo, Kullback-Leibler, Bhattacharyya) requieren que todos los valores sean estrictamente positivos y sumen 1 (distribuciones de probabilidad). Usar vectores arbitrarios puede producir
InfinityoNaN, que la herramienta trata como un error de cálculo. - Se soportan vectores muy grandes (miles de dimensiones) pero pueden causar un breve retraso dependiendo del método elegido.