Vektorähnlichkeits-Rechner
Berechnen Sie Distanz und Ähnlichkeit zwischen numerischen Vektoren mit Methoden wie Kosinus, Euklidisch, Jaccard und mehr.
Eingabe
Ausgabe
Readme
Was ist Vektorähnlichkeit?
Vektorähnlichkeit misst, wie ähnlich sich zwei Vektoren in einem mehrdimensionalen Raum sind. Vektoren sind geordnete Listen von Zahlen, die Datenpunkte darstellen — sie erscheinen in Machine-Learning-Embeddings, Empfehlungssystemen, Natural Language Processing, Bilderkennung und wissenschaftlichem Rechnen. Der Vergleich zweier Vektoren zeigt dir, wie nah oder verwandt die zugrunde liegenden Datenpunkte sind.
Zwei Kernkonzepte werden verwendet:
- Ähnlichkeit: Ein Score, der angibt, wie ähnlich sich zwei Vektoren sind. Höhere Werte bedeuten typischerweise größere Ähnlichkeit (z. B. Kosinus-Ähnlichkeit von 1 bedeutet identische Richtung).
- Distanz: Ein Maß dafür, wie weit zwei Vektoren auseinander liegen. Niedrigere Werte bedeuten typischerweise größere Ähnlichkeit (z. B. Euklidische Distanz von 0 bedeutet identische Vektoren).
Werkzeugbeschreibung
Dieses Werkzeug berechnet die Ähnlichkeit oder Distanz zwischen zwei numerischen Vektoren mit über 50 bekannten Methoden aus Informationstheorie, Statistik und Geometrie. Gib zwei Vektoren ein, wähle eine Methode aus dem Ähnlichkeits- oder Distanz-Tab, und das Ergebnis wird sofort in deinem Browser berechnet.
Beispiele
Eingabe
Vektor A: 1, 2, 3
Vektor B: 4, 5, 6| Methode | Ergebnis |
|---|---|
| Kosinus-Ähnlichkeit | 0.9746318461970762 |
| Euklidische Distanz | 5.196152422706632 |
| Manhattan-Distanz | 16.5 |
Akzeptierte Eingabeformate
Alle folgenden Formate sind gleichwertig:
1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3Funktionen
- 50+ Methoden — wähle aus Distanzen (Euklidisch, Manhattan, Chebyshev, Kosinus, Kullback-Leibler, Jensen-Shannon und mehr) oder Ähnlichkeiten (Kosinus, Jaccard, Dice, Tanimoto und mehr)
- Flexible Eingabe — akzeptiert durch Komma, Leerzeichen oder Semikolon getrennte Werte mit oder ohne Klammern
- Sofortige Ergebnisse — alle Berechnungen laufen clientseitig ohne Datensendung an einen Server
Unterstützte Methoden
Ähnlichkeitsmethoden
| Methode | Beschreibung |
|---|---|
| Kosinus | Misst den Winkel zwischen zwei Vektoren; weit verbreitet in NLP und Empfehlungssystemen |
| Kumar-Hassebrook | Verallgemeinerte Ähnlichkeit, die Jaccard und Kosinus kombiniert |
| Dice | Zweimal der Schnitt geteilt durch die Summe der Elementzahlen |
| Tanimoto | Erweiterter Jaccard-Koeffizient für kontinuierliche Vektoren |
| Schnitt | Summe der elementweisen Minima |
| Czekanowski | Verhältnis der doppelten Summe der Minima zur Gesamtsumme |
| Motyka | Schnitt geteilt durch die Summe aller Elemente |
| Kulczynski | Harmonisches Mittel von Präzisions- und Recall-ähnlichen Verhältnissen |
| Squared Chord | Basierend auf den Quadratwurzeln der Elementprodukte |
| Pearson | Linearer Korrelationskoeffizient zwischen den zwei Vektoren |
Distanzmethoden
| Methode | Beschreibung |
|---|---|
| Euklidisch | Geradlinige Distanz im n-dimensionalen Raum |
| Squared Euclidean | Euklidische Distanz ohne Quadratwurzel |
| Manhattan (City Block) | Summe der absoluten elementweisen Differenzen |
| Chebyshev | Maximale absolute Differenz über alle Dimensionen |
| Canberra | Gewichtete Manhattan-Distanz, empfindlich gegenüber Werten nahe Null |
| Sørensen | Summe der absoluten Differenzen geteilt durch Summe aller Werte |
| Gower | Normalisierter Mittelwert der absoluten Differenzen |
| Soergel | Verhältnis der absoluten Differenzen zu elementweisen Maxima |
| Lorentzian | Summe der natürlichen Logarithmen der absoluten Differenzen plus eins |
| Clark | Gewichtete Distanz mit absoluten Differenzen über Summen |
| Wave Hedges | Summe der absoluten Differenzen geteilt durch elementweise Maxima |
| Czekanowski | Distanzform des Czekanowski-Koeffizients |
| Motyka | Distanzform des Motyka-Koeffizients |
| Kulczynski | Distanzform des Kulczynski-Koeffizients |
| Tanimoto | Distanzform des Tanimoto-Koeffizients |
| Ruzicka | Komplement der Ruzicka-Ähnlichkeit |
| Inner Product | Negatives Skalarprodukt als Distanzmaß |
| Harmonic Mean | Distanz basierend auf harmonischen Mitteln von Elementpaaren |
| Jaccard | Anteil der nicht übereinstimmenden Komponenten |
| Dice | Distanzform des Dice-Koeffizients |
| Fidelity | Basierend auf der Quadratwurzel der Elementprodukte (Bhattacharyya-bezogen) |
| Bhattacharyya | Misst die Überlappung zwischen zwei Wahrscheinlichkeitsverteilungen |
| Hellinger | Quadratwurzel der Bhattacharyya-Distanz |
| Matusita | Quadratwurzel der Hälfte der Summe der quadrierten Differenzen von Quadratwurzeln |
| Squared Chord | Distanzform des Squared Chord-Koeffizients |
| Pearson | Distanzform des Pearson-Korrelationskoeffizients |
| Neyman | Chi-Quadrat-ähnliche Divergenz |
| Squared | Quadrierte Chi-Quadrat-Distanz |
| Probabilistic Symmetric | Symmetrische Version der Chi-Quadrat-Divergenz |
| Divergence | Doppelt gewichtete quadrierte Distanz |
| Additive Symmetric | Durchschnitt der Neyman- und Pearson-Chi-Quadrat-Divergenzen |
| Kullback-Leibler | Informationstheoretische Divergenz zwischen Verteilungen |
| Jeffreys | Symmetrische Kullback-Leibler-Divergenz |
| K Divergence | Asymmetrische Divergenz basierend auf durchschnittlicher Verteilung |
| Topsøe | Zweimal die Jensen-Shannon-Divergenz |
| Jensen-Shannon | Geglättete, symmetrische Version der Kullback-Leibler-Divergenz |
| Jensen Difference | Basierend auf der Jensen-Ungleichung für konvexe Funktionen |
| Taneja | Arithmetisch-geometrische Mittel-Divergenz |
| Kumar-Johnson | Basierend auf quadrierten Differenzen von geraden Potenzen |
| Intersection | Komplement der Schnitt-Ähnlichkeit |
| Average (City Block + Chebyshev) | Mittelwert der Manhattan- und Chebyshev-Distanzen |
Wie es funktioniert
Das Werkzeug analysiert jede Vektoreingabe in eine Zahlenfolge, entfernt optionale Klammern und teilt bei Kommas, Leerzeichen oder Semikolons. Es übergibt dann beide Arrays an die ausgewählte Funktion aus der ml-distance-Bibliothek, die die Berechnung in reinem JavaScript durchführt. Beide Vektoren müssen die gleiche Anzahl von Dimensionen haben; andernfalls zeigt das Werkzeug einen Validierungsfehler an.
Einschränkungen
- Einige Methoden (z. B. Kullback-Leibler, Bhattacharyya) erfordern, dass alle Werte streng positiv sind und sich zu 1 summieren (Wahrscheinlichkeitsverteilungen). Die Verwendung beliebiger Vektoren kann
InfinityoderNaNerzeugen, die das Werkzeug als Berechnungsfehler behandelt. - Sehr große Vektoren (tausende Dimensionen) werden unterstützt, können aber je nach gewählter Methode eine kurze Verzögerung verursachen.