Hva er vektorlikhet?

Vektorlikhet måler hvor like to vektorer er i et flerdimensjonalt rom. Vektorer er ordnede lister med tall som representerer datapunkter — de vises i maskinlæringsinnbeddinger, anbefalingssystemer, naturlig språkbehandling, bildegjenkjenning og vitenskapelig databehandling. Å sammenligne to vektorer forteller deg hvor nær eller relatert de underliggende datapunktene er.

To kjernekonsepter brukes:

  • Likhet: En poengsum som indikerer hvor like to vektorer er. Høyere verdier betyr vanligvis større likhet (f.eks. cosinus-likhet på 1 betyr identisk retning).
  • Avstand: Et mål på hvor langt fra hverandre to vektorer er. Lavere verdier betyr vanligvis større likhet (f.eks. euklidisk avstand på 0 betyr identiske vektorer).

Verktøybeskrivelse

Dette verktøyet beregner likheten eller avstanden mellom to numeriske vektorer ved hjelp av over 50 velkjente metoder fra informasjonsteori, statistikk og geometri. Skriv inn to vektorer, velg en metode fra likhets- eller avstandsfanen, og resultatet beregnes øyeblikkelig i nettleseren din.

Eksempler

Inndata

Vektor A: 1, 2, 3
Vektor B: 4, 5, 6
Metode Resultat
Cosinus-likhet 0.9746318461970762
Euklidisk avstand 5.196152422706632
Manhattan-avstand 16.5

Godtatte inndataformater

Alle følgende er likeverdige:

1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3

Funksjoner

  • 50+ metoder — velg fra avstander (Euklidisk, Manhattan, Chebyshev, Cosinus, Kullback-Leibler, Jensen-Shannon og flere) eller likheter (Cosinus, Jaccard, Dice, Tanimoto og flere)
  • Fleksibel inndata — godtar komma-, mellomrom- eller semikolonseparerte verdier med eller uten parenteser
  • Øyeblikkelige resultater — all beregning kjøres på klientsiden uten at data sendes til en server

Støttede metoder

Likhetmetoder

Metode Beskrivelse
Cosinus Måler vinkelen mellom to vektorer; mye brukt i NLP og anbefalingssystemer
Kumar-Hassebrook Generalisert likhet som kombinerer Jaccard og cosinus
Dice To ganger skjæringspunktet delt på summen av elementantall
Tanimoto Utvidet Jaccard-koeffisient for kontinuerlige vektorer
Skjæringspunkt Sum av element-vise minimumsverdier
Czekanowski Forhold mellom to ganger summen av minimumsverdier og totalsummen
Motyka Skjæringspunkt delt på summen av alle elementer
Kulczynski Harmonisk gjennomsnitt av presisjon og tilbakekalling-lignende forhold
Squared Chord Basert på kvadratrøttene av elementproduktene
Pearson Lineær korrelasjonskoeffisient mellom de to vektorene

Avstandsmetoder

Metode Beskrivelse
Euklidisk Rett linjeavstand i n-dimensjonalt rom
Squared Euclidean Euklidisk avstand uten kvadratroten
Manhattan (City Block) Sum av absolutte element-vise forskjeller
Chebyshev Maksimal absolutt forskjell på tvers av alle dimensjoner
Canberra Vektet Manhattan-avstand sensitiv for verdier nær null
Sørensen Sum av absolutte forskjeller delt på sum av alle verdier
Gower Normalisert gjennomsnitt av absolutte forskjeller
Soergel Forhold mellom absolutte forskjeller og element-vise maksimumsverdier
Lorentzian Sum av naturlige logaritmer av absolutte forskjeller pluss en
Clark Vektet avstand ved bruk av absolutte forskjeller over summer
Wave Hedges Sum av absolutte forskjeller delt på element-vise maksimumsverdier
Czekanowski Avstandsform av Czekanowski-koeffisienten
Motyka Avstandsform av Motyka-koeffisienten
Kulczynski Avstandsform av Kulczynski-koeffisienten
Tanimoto Avstandsform av Tanimoto-koeffisienten
Ruzicka Komplement av Ruzicka-likheten
Inner Product Negativ prikkprodukt som avstandsmål
Harmonic Mean Avstand basert på harmoniske gjennomsnitt av elementpar
Jaccard Andel av ikke-samsvarende komponenter
Dice Avstandsform av Dice-koeffisienten
Fidelity Basert på kvadratroten av elementproduktene (Bhattacharyya-relatert)
Bhattacharyya Måler overlapping mellom to sannsynlighetsfordelinger
Hellinger Kvadratroten av Bhattacharyya-avstanden
Matusita Kvadratroten av halvparten av summen av kvadrerte forskjeller av kvadratrøtter
Squared Chord Avstandsform av Squared Chord-koeffisienten
Pearson Avstandsform av Pearson-korrelasjonskoeffisienten
Neyman Chi-kvadrat-lignende divergens
Squared Kvadrert chi-kvadrat-avstand
Probabilistic Symmetric Symmetrisk versjon av chi-kvadrat-divergensen
Divergence Dobbelt vektet kvadrert avstand
Additive Symmetric Gjennomsnitt av Neyman og Pearson chi-kvadrat-divergenser
Kullback-Leibler Informasjonsteoretisk divergens mellom fordelinger
Jeffreys Symmetrisk Kullback-Leibler-divergens
K Divergence Asymmetrisk divergens basert på gjennomsnittlig fordeling
Topsøe To ganger Jensen-Shannon-divergensen
Jensen-Shannon Glatt, symmetrisk versjon av Kullback-Leibler
Jensen Difference Basert på Jensen-ulikheten for konvekse funksjoner
Taneja Aritmetisk-geometrisk gjennomsnittlig divergens
Kumar-Johnson Basert på kvadrerte forskjeller av partall
Intersection Komplement av skjæringspunkt-likheten
Average (City Block + Chebyshev) Gjennomsnitt av Manhattan og Chebyshev-avstander

Hvordan det fungerer

Verktøyet analyserer hver vektorinndata til en sekvens av tall, fjerner valgfrie parenteser og deler på kommaer, mellomrom eller semikolon. Det sender deretter begge matrisene til den valgte funksjonen fra ml-distance-biblioteket, som utfører beregningen i ren JavaScript. Begge vektorer må ha samme antall dimensjoner; ellers viser verktøyet en valideringsfeil.

Begrensninger

  • Noen metoder (f.eks. Kullback-Leibler, Bhattacharyya) krever at alle verdier er strengt positive og summerer til 1 (sannsynlighetsfordelinger). Bruk av vilkårlige vektorer kan produsere Infinity eller NaN, som verktøyet behandler som en beregningsfeil.
  • Svært store vektorer (tusenvis av dimensjoner) støttes, men kan forårsake en kort forsinkelse avhengig av valgt metode.