Vektorlikhetskalkulator
Beregn avstand og likhet mellom numeriske vektorer ved hjelp av metoder inkludert cosine, euclidean, jaccard og mer.
Inndata
Utdata
Les meg
Hva er vektorlikhet?
Vektorlikhet måler hvor like to vektorer er i et flerdimensjonalt rom. Vektorer er ordnede lister med tall som representerer datapunkter — de vises i maskinlæringsinnbeddinger, anbefalingssystemer, naturlig språkbehandling, bildegjenkjenning og vitenskapelig databehandling. Å sammenligne to vektorer forteller deg hvor nær eller relatert de underliggende datapunktene er.
To kjernekonsepter brukes:
- Likhet: En poengsum som indikerer hvor like to vektorer er. Høyere verdier betyr vanligvis større likhet (f.eks. cosinus-likhet på 1 betyr identisk retning).
- Avstand: Et mål på hvor langt fra hverandre to vektorer er. Lavere verdier betyr vanligvis større likhet (f.eks. euklidisk avstand på 0 betyr identiske vektorer).
Verktøybeskrivelse
Dette verktøyet beregner likheten eller avstanden mellom to numeriske vektorer ved hjelp av over 50 velkjente metoder fra informasjonsteori, statistikk og geometri. Skriv inn to vektorer, velg en metode fra likhets- eller avstandsfanen, og resultatet beregnes øyeblikkelig i nettleseren din.
Eksempler
Inndata
Vektor A: 1, 2, 3
Vektor B: 4, 5, 6| Metode | Resultat |
|---|---|
| Cosinus-likhet | 0.9746318461970762 |
| Euklidisk avstand | 5.196152422706632 |
| Manhattan-avstand | 16.5 |
Godtatte inndataformater
Alle følgende er likeverdige:
1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3Funksjoner
- 50+ metoder — velg fra avstander (Euklidisk, Manhattan, Chebyshev, Cosinus, Kullback-Leibler, Jensen-Shannon og flere) eller likheter (Cosinus, Jaccard, Dice, Tanimoto og flere)
- Fleksibel inndata — godtar komma-, mellomrom- eller semikolonseparerte verdier med eller uten parenteser
- Øyeblikkelige resultater — all beregning kjøres på klientsiden uten at data sendes til en server
Støttede metoder
Likhetmetoder
| Metode | Beskrivelse |
|---|---|
| Cosinus | Måler vinkelen mellom to vektorer; mye brukt i NLP og anbefalingssystemer |
| Kumar-Hassebrook | Generalisert likhet som kombinerer Jaccard og cosinus |
| Dice | To ganger skjæringspunktet delt på summen av elementantall |
| Tanimoto | Utvidet Jaccard-koeffisient for kontinuerlige vektorer |
| Skjæringspunkt | Sum av element-vise minimumsverdier |
| Czekanowski | Forhold mellom to ganger summen av minimumsverdier og totalsummen |
| Motyka | Skjæringspunkt delt på summen av alle elementer |
| Kulczynski | Harmonisk gjennomsnitt av presisjon og tilbakekalling-lignende forhold |
| Squared Chord | Basert på kvadratrøttene av elementproduktene |
| Pearson | Lineær korrelasjonskoeffisient mellom de to vektorene |
Avstandsmetoder
| Metode | Beskrivelse |
|---|---|
| Euklidisk | Rett linjeavstand i n-dimensjonalt rom |
| Squared Euclidean | Euklidisk avstand uten kvadratroten |
| Manhattan (City Block) | Sum av absolutte element-vise forskjeller |
| Chebyshev | Maksimal absolutt forskjell på tvers av alle dimensjoner |
| Canberra | Vektet Manhattan-avstand sensitiv for verdier nær null |
| Sørensen | Sum av absolutte forskjeller delt på sum av alle verdier |
| Gower | Normalisert gjennomsnitt av absolutte forskjeller |
| Soergel | Forhold mellom absolutte forskjeller og element-vise maksimumsverdier |
| Lorentzian | Sum av naturlige logaritmer av absolutte forskjeller pluss en |
| Clark | Vektet avstand ved bruk av absolutte forskjeller over summer |
| Wave Hedges | Sum av absolutte forskjeller delt på element-vise maksimumsverdier |
| Czekanowski | Avstandsform av Czekanowski-koeffisienten |
| Motyka | Avstandsform av Motyka-koeffisienten |
| Kulczynski | Avstandsform av Kulczynski-koeffisienten |
| Tanimoto | Avstandsform av Tanimoto-koeffisienten |
| Ruzicka | Komplement av Ruzicka-likheten |
| Inner Product | Negativ prikkprodukt som avstandsmål |
| Harmonic Mean | Avstand basert på harmoniske gjennomsnitt av elementpar |
| Jaccard | Andel av ikke-samsvarende komponenter |
| Dice | Avstandsform av Dice-koeffisienten |
| Fidelity | Basert på kvadratroten av elementproduktene (Bhattacharyya-relatert) |
| Bhattacharyya | Måler overlapping mellom to sannsynlighetsfordelinger |
| Hellinger | Kvadratroten av Bhattacharyya-avstanden |
| Matusita | Kvadratroten av halvparten av summen av kvadrerte forskjeller av kvadratrøtter |
| Squared Chord | Avstandsform av Squared Chord-koeffisienten |
| Pearson | Avstandsform av Pearson-korrelasjonskoeffisienten |
| Neyman | Chi-kvadrat-lignende divergens |
| Squared | Kvadrert chi-kvadrat-avstand |
| Probabilistic Symmetric | Symmetrisk versjon av chi-kvadrat-divergensen |
| Divergence | Dobbelt vektet kvadrert avstand |
| Additive Symmetric | Gjennomsnitt av Neyman og Pearson chi-kvadrat-divergenser |
| Kullback-Leibler | Informasjonsteoretisk divergens mellom fordelinger |
| Jeffreys | Symmetrisk Kullback-Leibler-divergens |
| K Divergence | Asymmetrisk divergens basert på gjennomsnittlig fordeling |
| Topsøe | To ganger Jensen-Shannon-divergensen |
| Jensen-Shannon | Glatt, symmetrisk versjon av Kullback-Leibler |
| Jensen Difference | Basert på Jensen-ulikheten for konvekse funksjoner |
| Taneja | Aritmetisk-geometrisk gjennomsnittlig divergens |
| Kumar-Johnson | Basert på kvadrerte forskjeller av partall |
| Intersection | Komplement av skjæringspunkt-likheten |
| Average (City Block + Chebyshev) | Gjennomsnitt av Manhattan og Chebyshev-avstander |
Hvordan det fungerer
Verktøyet analyserer hver vektorinndata til en sekvens av tall, fjerner valgfrie parenteser og deler på kommaer, mellomrom eller semikolon. Det sender deretter begge matrisene til den valgte funksjonen fra ml-distance-biblioteket, som utfører beregningen i ren JavaScript. Begge vektorer må ha samme antall dimensjoner; ellers viser verktøyet en valideringsfeil.
Begrensninger
- Noen metoder (f.eks. Kullback-Leibler, Bhattacharyya) krever at alle verdier er strengt positive og summerer til 1 (sannsynlighetsfordelinger). Bruk av vilkårlige vektorer kan produsere
InfinityellerNaN, som verktøyet behandler som en beregningsfeil. - Svært store vektorer (tusenvis av dimensjoner) støttes, men kan forårsake en kort forsinkelse avhengig av valgt metode.