Kalkulator podobieństwa wektorów
Oblicz odległość i podobieństwo między wektorami numerycznymi przy użyciu metod takich jak cosine, euclidean, jaccard i innych.
Wejście
Wyjście
Instrukcja
Co to jest podobieństwo wektorów?
Podobieństwo wektorów mierzy, jak podobne są dwa wektory w przestrzeni wielowymiarowej. Wektory to uporządkowane listy liczb reprezentujące punkty danych — pojawiają się w osadzeniach uczenia maszynowego, systemach rekomendacji, przetwarzaniu języka naturalnego, rozpoznawaniu obrazów i obliczeniach naukowych. Porównanie dwóch wektorów mówi ci, jak blisko lub powiązane są podstawowe punkty danych.
Używane są dwie podstawowe koncepcje:
- Podobieństwo: Wynik wskazujący, jak podobne są dwa wektory. Wyższe wartości zazwyczaj oznaczają większe podobieństwo (np. podobieństwo cosinusowe równe 1 oznacza identyczny kierunek).
- Odległość: Miara tego, jak daleko od siebie znajdują się dwa wektory. Niższe wartości zazwyczaj oznaczają większe podobieństwo (np. odległość euklidesowa równa 0 oznacza identyczne wektory).
Opis narzędzia
To narzędzie oblicza podobieństwo lub odległość między dwoma wektorami numerycznymi, używając ponad 50 dobrze znanych metod z teorii informacji, statystyki i geometrii. Wprowadź dwa wektory, wybierz metodę z karty podobieństwa lub odległości, a wynik zostanie obliczony natychmiast w twojej przeglądarce.
Przykłady
Dane wejściowe
Wektor A: 1, 2, 3
Wektor B: 4, 5, 6| Metoda | Wynik |
|---|---|
| Podobieństwo cosinusowe | 0.9746318461970762 |
| Odległość euklidesowa | 5.196152422706632 |
| Odległość Manhattan | 16.5 |
Akceptowane formaty danych wejściowych
Wszystkie poniższe są równoważne:
1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3Funkcje
- 50+ metod — wybieraj spośród odległości (euklidesowa, Manhattan, Czebyszewa, cosinusowa, Kullback-Leibler, Jensen-Shannon i inne) lub podobieństw (cosinusowe, Jaccarda, Dice'a, Tanimoto i inne)
- Elastyczne dane wejściowe — akceptuje wartości oddzielone przecinkami, spacjami lub średnikami z nawiasami lub bez nich
- Natychmiastowe wyniki — wszystkie obliczenia wykonywane są po stronie klienta bez wysyłania danych na serwer
Obsługiwane metody
Metody podobieństwa
| Metoda | Opis |
|---|---|
| Cosinusowa | Mierzy kąt między dwoma wektorami; szeroko stosowana w NLP i systemach rekomendacji |
| Kumar-Hassebrook | Uogólnione podobieństwo łączące Jaccarda i cosinusowe |
| Dice | Dwa razy przecięcie podzielone przez sumę liczby elementów |
| Tanimoto | Rozszerzony współczynnik Jaccarda dla wektorów ciągłych |
| Przecięcie | Suma elementowych minimów |
| Czekanowski | Stosunek dwa razy sumy minimów do sumy całkowitej |
| Motyka | Przecięcie podzielone przez sumę wszystkich elementów |
| Kulczynski | Średnia harmoniczna współczynników podobnych do precyzji i czułości |
| Kwadratowy Akord | Oparty na pierwiastkach kwadratowych iloczynów elementów |
| Pearson | Współczynnik korelacji liniowej między dwoma wektorami |
Metody odległości
| Metoda | Opis |
|---|---|
| Euklidesowa | Odległość w linii prostej w przestrzeni n-wymiarowej |
| Kwadratowa euklidesowa | Odległość euklidesowa bez pierwiastka kwadratowego |
| Manhattan (City Block) | Suma bezwzględnych różnic elementów |
| Czebyszewa | Maksymalna bezwzględna różnica we wszystkich wymiarach |
| Canberra | Ważona odległość Manhattan wrażliwa na wartości bliskie zeru |
| Sørensen | Suma bezwzględnych różnic podzielona przez sumę wszystkich wartości |
| Gower | Znormalizowana średnia bezwzględnych różnic |
| Soergel | Stosunek bezwzględnych różnic do elementowych maksimów |
| Lorentziana | Suma logarytmów naturalnych bezwzględnych różnic plus jeden |
| Clark | Ważona odległość używająca bezwzględnych różnic nad sumami |
| Wave Hedges | Suma bezwzględnych różnic podzielona przez elementowe maksima |
| Czekanowski | Forma odległości współczynnika Czekanowskiego |
| Motyka | Forma odległości współczynnika Motyki |
| Kulczynski | Forma odległości współczynnika Kulczyńskiego |
| Tanimoto | Forma odległości współczynnika Tanimoto |
| Ruzicka | Dopełnienie podobieństwa Ruzicki |
| Iloczyn wewnętrzny | Ujemny iloczyn skalarny jako miara odległości |
| Średnia harmoniczna | Odległość oparta na średniach harmonicznych par elementów |
| Jaccarda | Proporcja niezgodnych komponentów |
| Dice | Forma odległości współczynnika Dice'a |
| Wierność | Oparta na pierwiastku kwadratowym iloczynów elementów (związana z Bhattacharyyą) |
| Bhattacharyya | Mierzy nakładanie się dwóch rozkładów prawdopodobieństwa |
| Hellinger | Pierwiastek kwadratowy odległości Bhattacharyyii |
| Matusita | Pierwiastek kwadratowy połowy sumy kwadratów różnic pierwiastków kwadratowych |
| Kwadratowy Akord | Forma odległości współczynnika Kwadratowy Akord |
| Pearson | Forma odległości współczynnika korelacji Pearsona |
| Neyman | Dywergencja typu chi-kwadrat |
| Kwadratowa | Kwadratowa odległość chi-kwadrat |
| Probabilistyczna symetryczna | Symetryczna wersja dywergencji chi-kwadrat |
| Dywergencja | Podwójnie ważona kwadratowa odległość |
| Addytywna symetryczna | Średnia dywergencji chi-kwadrat Neymana i Pearsona |
| Kullback-Leibler | Dywergencja teoretyczno-informacyjna między rozkładami |
| Jeffreys | Symetryczna dywergencja Kullback-Leibler |
| K Dywergencja | Asymetryczna dywergencja oparta na średnim rozkładzie |
| Topsøe | Dwa razy dywergencja Jensen-Shannon |
| Jensen-Shannon | Wygładzona, symetryczna wersja Kullback-Leibler |
| Różnica Jensen | Oparta na nierówności Jensena dla funkcji wypukłych |
| Taneja | Dywergencja średniej arytmetyczno-geometrycznej |
| Kumar-Johnson | Oparta na kwadratach różnic parzystych potęg |
| Przecięcie | Dopełnienie podobieństwa przecięcia |
| Średnia (City Block + Czebyszewa) | Średnia odległości Manhattan i Czebyszewa |
Jak to działa
Narzędzie analizuje każde wejście wektora na sekwencję liczb, usuwa opcjonalne nawiasy i dzieli na przecinki, spacje lub średniki. Następnie przekazuje obie tablice do wybranej funkcji z biblioteki ml-distance, która wykonuje obliczenia w czystym JavaScript. Oba wektory muszą mieć taką samą liczbę wymiarów; w przeciwnym razie narzędzie wyświetla błąd walidacji.
Ograniczenia
- Niektóre metody (np. Kullback-Leibler, Bhattacharyya) wymagają, aby wszystkie wartości były ściśle dodatnie i sumowały się do 1 (rozkłady prawdopodobieństwa). Użycie dowolnych wektorów może dać wynik
InfinitylubNaN, które narzędzie traktuje jako błąd obliczeniowy. - Bardzo duże wektory (tysiące wymiarów) są obsługiwane, ale mogą spowodować krótkie opóźnienie w zależności od wybranej metody.