Was ist Vektorähnlichkeit?

Vektorähnlichkeit misst, wie ähnlich sich zwei Vektoren in einem mehrdimensionalen Raum sind. Vektoren sind geordnete Listen von Zahlen, die Datenpunkte darstellen — sie erscheinen in Machine-Learning-Embeddings, Empfehlungssystemen, Natural Language Processing, Bilderkennung und wissenschaftlichem Rechnen. Der Vergleich zweier Vektoren zeigt dir, wie nah oder verwandt die zugrunde liegenden Datenpunkte sind.

Zwei Kernkonzepte werden verwendet:

  • Ähnlichkeit: Ein Score, der angibt, wie ähnlich sich zwei Vektoren sind. Höhere Werte bedeuten typischerweise größere Ähnlichkeit (z. B. Kosinus-Ähnlichkeit von 1 bedeutet identische Richtung).
  • Distanz: Ein Maß dafür, wie weit zwei Vektoren auseinander liegen. Niedrigere Werte bedeuten typischerweise größere Ähnlichkeit (z. B. Euklidische Distanz von 0 bedeutet identische Vektoren).

Werkzeugbeschreibung

Dieses Werkzeug berechnet die Ähnlichkeit oder Distanz zwischen zwei numerischen Vektoren mit über 50 bekannten Methoden aus Informationstheorie, Statistik und Geometrie. Gib zwei Vektoren ein, wähle eine Methode aus dem Ähnlichkeits- oder Distanz-Tab, und das Ergebnis wird sofort in deinem Browser berechnet.

Beispiele

Eingabe

Vektor A: 1, 2, 3
Vektor B: 4, 5, 6
Methode Ergebnis
Kosinus-Ähnlichkeit 0.9746318461970762
Euklidische Distanz 5.196152422706632
Manhattan-Distanz 16.5

Akzeptierte Eingabeformate

Alle folgenden Formate sind gleichwertig:

1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3

Funktionen

  • 50+ Methoden — wähle aus Distanzen (Euklidisch, Manhattan, Chebyshev, Kosinus, Kullback-Leibler, Jensen-Shannon und mehr) oder Ähnlichkeiten (Kosinus, Jaccard, Dice, Tanimoto und mehr)
  • Flexible Eingabe — akzeptiert durch Komma, Leerzeichen oder Semikolon getrennte Werte mit oder ohne Klammern
  • Sofortige Ergebnisse — alle Berechnungen laufen clientseitig ohne Datensendung an einen Server

Unterstützte Methoden

Ähnlichkeitsmethoden

Methode Beschreibung
Kosinus Misst den Winkel zwischen zwei Vektoren; weit verbreitet in NLP und Empfehlungssystemen
Kumar-Hassebrook Verallgemeinerte Ähnlichkeit, die Jaccard und Kosinus kombiniert
Dice Zweimal der Schnitt geteilt durch die Summe der Elementzahlen
Tanimoto Erweiterter Jaccard-Koeffizient für kontinuierliche Vektoren
Schnitt Summe der elementweisen Minima
Czekanowski Verhältnis der doppelten Summe der Minima zur Gesamtsumme
Motyka Schnitt geteilt durch die Summe aller Elemente
Kulczynski Harmonisches Mittel von Präzisions- und Recall-ähnlichen Verhältnissen
Squared Chord Basierend auf den Quadratwurzeln der Elementprodukte
Pearson Linearer Korrelationskoeffizient zwischen den zwei Vektoren

Distanzmethoden

Methode Beschreibung
Euklidisch Geradlinige Distanz im n-dimensionalen Raum
Squared Euclidean Euklidische Distanz ohne Quadratwurzel
Manhattan (City Block) Summe der absoluten elementweisen Differenzen
Chebyshev Maximale absolute Differenz über alle Dimensionen
Canberra Gewichtete Manhattan-Distanz, empfindlich gegenüber Werten nahe Null
Sørensen Summe der absoluten Differenzen geteilt durch Summe aller Werte
Gower Normalisierter Mittelwert der absoluten Differenzen
Soergel Verhältnis der absoluten Differenzen zu elementweisen Maxima
Lorentzian Summe der natürlichen Logarithmen der absoluten Differenzen plus eins
Clark Gewichtete Distanz mit absoluten Differenzen über Summen
Wave Hedges Summe der absoluten Differenzen geteilt durch elementweise Maxima
Czekanowski Distanzform des Czekanowski-Koeffizients
Motyka Distanzform des Motyka-Koeffizients
Kulczynski Distanzform des Kulczynski-Koeffizients
Tanimoto Distanzform des Tanimoto-Koeffizients
Ruzicka Komplement der Ruzicka-Ähnlichkeit
Inner Product Negatives Skalarprodukt als Distanzmaß
Harmonic Mean Distanz basierend auf harmonischen Mitteln von Elementpaaren
Jaccard Anteil der nicht übereinstimmenden Komponenten
Dice Distanzform des Dice-Koeffizients
Fidelity Basierend auf der Quadratwurzel der Elementprodukte (Bhattacharyya-bezogen)
Bhattacharyya Misst die Überlappung zwischen zwei Wahrscheinlichkeitsverteilungen
Hellinger Quadratwurzel der Bhattacharyya-Distanz
Matusita Quadratwurzel der Hälfte der Summe der quadrierten Differenzen von Quadratwurzeln
Squared Chord Distanzform des Squared Chord-Koeffizients
Pearson Distanzform des Pearson-Korrelationskoeffizients
Neyman Chi-Quadrat-ähnliche Divergenz
Squared Quadrierte Chi-Quadrat-Distanz
Probabilistic Symmetric Symmetrische Version der Chi-Quadrat-Divergenz
Divergence Doppelt gewichtete quadrierte Distanz
Additive Symmetric Durchschnitt der Neyman- und Pearson-Chi-Quadrat-Divergenzen
Kullback-Leibler Informationstheoretische Divergenz zwischen Verteilungen
Jeffreys Symmetrische Kullback-Leibler-Divergenz
K Divergence Asymmetrische Divergenz basierend auf durchschnittlicher Verteilung
Topsøe Zweimal die Jensen-Shannon-Divergenz
Jensen-Shannon Geglättete, symmetrische Version der Kullback-Leibler-Divergenz
Jensen Difference Basierend auf der Jensen-Ungleichung für konvexe Funktionen
Taneja Arithmetisch-geometrische Mittel-Divergenz
Kumar-Johnson Basierend auf quadrierten Differenzen von geraden Potenzen
Intersection Komplement der Schnitt-Ähnlichkeit
Average (City Block + Chebyshev) Mittelwert der Manhattan- und Chebyshev-Distanzen

Wie es funktioniert

Das Werkzeug analysiert jede Vektoreingabe in eine Zahlenfolge, entfernt optionale Klammern und teilt bei Kommas, Leerzeichen oder Semikolons. Es übergibt dann beide Arrays an die ausgewählte Funktion aus der ml-distance-Bibliothek, die die Berechnung in reinem JavaScript durchführt. Beide Vektoren müssen die gleiche Anzahl von Dimensionen haben; andernfalls zeigt das Werkzeug einen Validierungsfehler an.

Einschränkungen

  • Einige Methoden (z. B. Kullback-Leibler, Bhattacharyya) erfordern, dass alle Werte streng positiv sind und sich zu 1 summieren (Wahrscheinlichkeitsverteilungen). Die Verwendung beliebiger Vektoren kann Infinity oder NaN erzeugen, die das Werkzeug als Berechnungsfehler behandelt.
  • Sehr große Vektoren (tausende Dimensionen) werden unterstützt, können aber je nach gewählter Methode eine kurze Verzögerung verursachen.