Co to jest podobieństwo wektorów?

Podobieństwo wektorów mierzy, jak podobne są dwa wektory w przestrzeni wielowymiarowej. Wektory to uporządkowane listy liczb reprezentujące punkty danych — pojawiają się w osadzeniach uczenia maszynowego, systemach rekomendacji, przetwarzaniu języka naturalnego, rozpoznawaniu obrazów i obliczeniach naukowych. Porównanie dwóch wektorów mówi ci, jak blisko lub powiązane są podstawowe punkty danych.

Używane są dwie podstawowe koncepcje:

  • Podobieństwo: Wynik wskazujący, jak podobne są dwa wektory. Wyższe wartości zazwyczaj oznaczają większe podobieństwo (np. podobieństwo cosinusowe równe 1 oznacza identyczny kierunek).
  • Odległość: Miara tego, jak daleko od siebie znajdują się dwa wektory. Niższe wartości zazwyczaj oznaczają większe podobieństwo (np. odległość euklidesowa równa 0 oznacza identyczne wektory).

Opis narzędzia

To narzędzie oblicza podobieństwo lub odległość między dwoma wektorami numerycznymi, używając ponad 50 dobrze znanych metod z teorii informacji, statystyki i geometrii. Wprowadź dwa wektory, wybierz metodę z karty podobieństwa lub odległości, a wynik zostanie obliczony natychmiast w twojej przeglądarce.

Przykłady

Dane wejściowe

Wektor A: 1, 2, 3
Wektor B: 4, 5, 6
Metoda Wynik
Podobieństwo cosinusowe 0.9746318461970762
Odległość euklidesowa 5.196152422706632
Odległość Manhattan 16.5

Akceptowane formaty danych wejściowych

Wszystkie poniższe są równoważne:

1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3

Funkcje

  • 50+ metod — wybieraj spośród odległości (euklidesowa, Manhattan, Czebyszewa, cosinusowa, Kullback-Leibler, Jensen-Shannon i inne) lub podobieństw (cosinusowe, Jaccarda, Dice'a, Tanimoto i inne)
  • Elastyczne dane wejściowe — akceptuje wartości oddzielone przecinkami, spacjami lub średnikami z nawiasami lub bez nich
  • Natychmiastowe wyniki — wszystkie obliczenia wykonywane są po stronie klienta bez wysyłania danych na serwer

Obsługiwane metody

Metody podobieństwa

Metoda Opis
Cosinusowa Mierzy kąt między dwoma wektorami; szeroko stosowana w NLP i systemach rekomendacji
Kumar-Hassebrook Uogólnione podobieństwo łączące Jaccarda i cosinusowe
Dice Dwa razy przecięcie podzielone przez sumę liczby elementów
Tanimoto Rozszerzony współczynnik Jaccarda dla wektorów ciągłych
Przecięcie Suma elementowych minimów
Czekanowski Stosunek dwa razy sumy minimów do sumy całkowitej
Motyka Przecięcie podzielone przez sumę wszystkich elementów
Kulczynski Średnia harmoniczna współczynników podobnych do precyzji i czułości
Kwadratowy Akord Oparty na pierwiastkach kwadratowych iloczynów elementów
Pearson Współczynnik korelacji liniowej między dwoma wektorami

Metody odległości

Metoda Opis
Euklidesowa Odległość w linii prostej w przestrzeni n-wymiarowej
Kwadratowa euklidesowa Odległość euklidesowa bez pierwiastka kwadratowego
Manhattan (City Block) Suma bezwzględnych różnic elementów
Czebyszewa Maksymalna bezwzględna różnica we wszystkich wymiarach
Canberra Ważona odległość Manhattan wrażliwa na wartości bliskie zeru
Sørensen Suma bezwzględnych różnic podzielona przez sumę wszystkich wartości
Gower Znormalizowana średnia bezwzględnych różnic
Soergel Stosunek bezwzględnych różnic do elementowych maksimów
Lorentziana Suma logarytmów naturalnych bezwzględnych różnic plus jeden
Clark Ważona odległość używająca bezwzględnych różnic nad sumami
Wave Hedges Suma bezwzględnych różnic podzielona przez elementowe maksima
Czekanowski Forma odległości współczynnika Czekanowskiego
Motyka Forma odległości współczynnika Motyki
Kulczynski Forma odległości współczynnika Kulczyńskiego
Tanimoto Forma odległości współczynnika Tanimoto
Ruzicka Dopełnienie podobieństwa Ruzicki
Iloczyn wewnętrzny Ujemny iloczyn skalarny jako miara odległości
Średnia harmoniczna Odległość oparta na średniach harmonicznych par elementów
Jaccarda Proporcja niezgodnych komponentów
Dice Forma odległości współczynnika Dice'a
Wierność Oparta na pierwiastku kwadratowym iloczynów elementów (związana z Bhattacharyyą)
Bhattacharyya Mierzy nakładanie się dwóch rozkładów prawdopodobieństwa
Hellinger Pierwiastek kwadratowy odległości Bhattacharyyii
Matusita Pierwiastek kwadratowy połowy sumy kwadratów różnic pierwiastków kwadratowych
Kwadratowy Akord Forma odległości współczynnika Kwadratowy Akord
Pearson Forma odległości współczynnika korelacji Pearsona
Neyman Dywergencja typu chi-kwadrat
Kwadratowa Kwadratowa odległość chi-kwadrat
Probabilistyczna symetryczna Symetryczna wersja dywergencji chi-kwadrat
Dywergencja Podwójnie ważona kwadratowa odległość
Addytywna symetryczna Średnia dywergencji chi-kwadrat Neymana i Pearsona
Kullback-Leibler Dywergencja teoretyczno-informacyjna między rozkładami
Jeffreys Symetryczna dywergencja Kullback-Leibler
K Dywergencja Asymetryczna dywergencja oparta na średnim rozkładzie
Topsøe Dwa razy dywergencja Jensen-Shannon
Jensen-Shannon Wygładzona, symetryczna wersja Kullback-Leibler
Różnica Jensen Oparta na nierówności Jensena dla funkcji wypukłych
Taneja Dywergencja średniej arytmetyczno-geometrycznej
Kumar-Johnson Oparta na kwadratach różnic parzystych potęg
Przecięcie Dopełnienie podobieństwa przecięcia
Średnia (City Block + Czebyszewa) Średnia odległości Manhattan i Czebyszewa

Jak to działa

Narzędzie analizuje każde wejście wektora na sekwencję liczb, usuwa opcjonalne nawiasy i dzieli na przecinki, spacje lub średniki. Następnie przekazuje obie tablice do wybranej funkcji z biblioteki ml-distance, która wykonuje obliczenia w czystym JavaScript. Oba wektory muszą mieć taką samą liczbę wymiarów; w przeciwnym razie narzędzie wyświetla błąd walidacji.

Ograniczenia

  • Niektóre metody (np. Kullback-Leibler, Bhattacharyya) wymagają, aby wszystkie wartości były ściśle dodatnie i sumowały się do 1 (rozkłady prawdopodobieństwa). Użycie dowolnych wektorów może dać wynik Infinity lub NaN, które narzędzie traktuje jako błąd obliczeniowy.
  • Bardzo duże wektory (tysiące wymiarów) są obsługiwane, ale mogą spowodować krótkie opóźnienie w zależności od wybranej metody.