Vektori sarnasuse kalkulaator
Arvutage kaugust ja sarnasust numbriliste vektorite vahel, kasutades meetodeid nagu koosinus, eukleidiline, jaccard ja palju muud.
Sisend
Väljund
Loe mind
Mis on vektori sarnasus?
Vektori sarnasus mõõdab, kui sarnased kaks vektorit on mitmedimensioonilises ruumis. Vektorid on arvude järjestatud loendid, mis esindavad andmepunkte — need esinevad masinõppe manustamisel, soovitussüsteemides, loomulikul keelel töötlemisel, pildituvastamisel ja teaduslikus arvutamisel. Kahe vektori võrdlemine näitab, kui lähedased või seotud on alusandmepunktid.
Kasutatakse kahte põhikontseptsiooni:
- Sarnasus: Skoor, mis näitab, kui sarnased kaks vektorit on. Kõrgemad väärtused tähendavad tavaliselt suuremat sarnasust (nt kosinuse sarnasus 1 tähendab identset suunda).
- Kaugus: Mõõt, mis näitab, kui kaugel kaks vektorit üksteisest on. Madalamad väärtused tähendavad tavaliselt suuremat sarnasust (nt Eukleidese kaugus 0 tähendab identseid vektoreid).
Tööriista kirjeldus
See tööriist arvutab kahe arvulise vektori sarnasuse või kauguse, kasutades üle 50 hästi tuntud meetodit infoteooriast, statistikast ja geomeetriast. Sisestage kaks vektorit, valige meetod sarnasuse või kauguse vahekaardilt ja tulemus arvutatakse koheselt teie brauseris.
Näited
Sisend
Vektor A: 1, 2, 3
Vektor B: 4, 5, 6| Meetod | Tulemus |
|---|---|
| Kosinuse sarnasus | 0.9746318461970762 |
| Eukleidese kaugus | 5.196152422706632 |
| Manhattani kaugus | 16.5 |
Aktsepteeritud sisendvormingud
Kõik järgmised on samaväärsed:
1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3Funktsioonid
- 50+ meetodit — valige kauguste (Eukleidese, Manhattani, Tšebõševi, Kosinuse, Kullback-Leibleri, Jensen-Shannoni ja muud) või sarnasuste (Kosinuse, Jaccardi, Dice, Tanimoto ja muud) hulgast
- Paindlik sisend — aktsepteerib komaga, tühikuga või semikooloniga eraldatud väärtusi sulgudega või ilma
- Kohesed tulemused — kogu arvutus käib kliendi poolel, andmeid serverile ei saadeta
Toetatud meetodid
Sarnasuse meetodid
| Meetod | Kirjeldus |
|---|---|
| Kosinuse sarnasus | Mõõdab nurka kahe vektori vahel; laialdaselt kasutusel NLP-s ja soovitussüsteemides |
| Kumar-Hassebrook | Üldistatud sarnasus, mis ühendab Jaccardi ja kosinuse |
| Dice | Kaks korda ristumist jagatud elementide arvu summaga |
| Tanimoto | Laiendatud Jaccardi koefitsient pidevate vektorite jaoks |
| Ristumiskoht | Elementide kaupa miinimumide summa |
| Czekanowski | Kahe miinimumide summa suhe kogusummasse |
| Motyka | Ristumiskoht jagatud kõigi elementide summaga |
| Kulczynski | Täpsuse ja tagasikutsumisega sarnaste suhtarvude harmooniline keskmine |
| Squared Chord | Põhineb elementide korrutiste ruutjuurtel |
| Pearson | Lineaarne korrelatsioonikordaja kahe vektori vahel |
Kauguse meetodid
| Meetod | Kirjeldus |
|---|---|
| Eukleidese kaugus | Sirgjooneline kaugus n-mõõtmelises ruumis |
| Squared Euclidean | Eukleidese kaugus ilma ruutjuureta |
| Manhattani kaugus (City Block) | Absoluutsete elementide kaupa erinevuste summa |
| Tšebõšev | Maksimaalne absoluutne erinevus kõigi dimensioonide lõikes |
| Canberra | Kaalutud Manhattani kaugus, mis on tundlik nullilähedaste väärtuste suhtes |
| Sørensen | Absoluutsete erinevuste summa jagatud kõigi väärtuste summaga |
| Gower | Normaliseeritud absoluutsete erinevuste keskmine |
| Soergel | Absoluutsete erinevuste suhe elementide kaupa maksimumsidesse |
| Lorentzian | Naturaalsete logaritmide summa absoluutsetest erinevustest pluss üks |
| Clark | Kaalutud kaugus, kasutades absoluutseid erinevusi summade üle |
| Wave Hedges | Absoluutsete erinevuste summa jagatud elementide kaupa maksimumsidesse |
| Czekanowski | Czekanowski koefitsiendi kauguse vorm |
| Motyka | Motyka koefitsiendi kauguse vorm |
| Kulczynski | Kulczynski koefitsiendi kauguse vorm |
| Tanimoto | Tanimoto koefitsiendi kauguse vorm |
| Ruzicka | Ruzicka sarnasuse täiend |
| Sisemine korrutis | Negatiivne skalaarkorrutis kui kauguse mõõt |
| Harmooniline keskmine | Kaugus, mis põhineb elementide paaride harmoonilisele keskmisele |
| Jaccard | Mittevastavate komponentide osakaal |
| Dice | Dice koefitsiendi kauguse vorm |
| Fidelity | Põhineb elementide korrutiste ruutjuurel (Bhattacharyya-seotud) |
| Bhattacharyya | Mõõdab kahe tõenäosusjaotuse kattumist |
| Hellinger | Bhattacharyya kauguse ruutjuur |
| Matusita | Ruutjuur poolest ruudus erinevuste summast ruutjuurtest |
| Squared Chord | Squared Chord koefitsiendi kauguse vorm |
| Pearson | Pearsoni korrelatsioonikordaja kauguse vorm |
| Neyman | Chi-ruudu tüüpi lahknevus |
| Squared | Ruudus chi-ruudu kaugus |
| Probabilistic Symmetric | Chi-ruudu lahknevuse sümmeetriline versioon |
| Divergence | Kahekordse kaaluga ruudus kaugus |
| Additive Symmetric | Neymanni ja Pearsoni chi-ruudu lahknevuste keskmine |
| Kullback-Leibler | Infoteoreetiline lahknevus jaotuste vahel |
| Jeffreys | Sümmeetriline Kullback-Leibleri lahknevus |
| K Divergence | Asümmeetriline lahknevus, mis põhineb keskmisele jaotusele |
| Topsøe | Kaks korda Jensen-Shannoni lahknevust |
| Jensen-Shannon | Silutud, sümmeetriline Kullback-Leibleri versioon |
| Jensen Difference | Põhineb Jenseni ebavõrdsusel kumerate funktsioonide jaoks |
| Taneja | Aritmeetilis-geomeetriline keskmine lahknevus |
| Kumar-Johnson | Põhineb paarisastmete ruudus erinevustel |
| Ristumiskoht | Ristumissarnasuse täiend |
| Keskmine (City Block + Chebyshev) | Manhattani ja Tšebõševi kauguste keskmine |
Kuidas see toimib
Tööriist analüüsib iga vektori sisendi arvude jadaks, eemaldab valikulised sulud ja jagab komade, tühikute või semikoolonite järgi. Seejärel edastab see mõlemad massiivid valitud funktsioonile ml-distance teegist, mis teostab arvutuse puhta JavaScriptiga. Mõlemad vektorid peavad olema sama dimensiooniga; vastasel juhul näitab tööriist valideerimisveaannet.
Piirangud
- Mõned meetodid (nt Kullback-Leibler, Bhattacharyya) nõuavad, et kõik väärtused oleksid rangelt positiivsed ja summeeruksid 1-ks (tõenäosusjaotused). Suvaliste vektorite kasutamine võib tekitada
InfinityvõiNaN, mida tööriist käsitleb arvutusveana. - Väga suured vektorid (tuhandete dimensioonidega) on toetatud, kuid võivad põhjustada lühikest viivitust valitud meetodist sõltuvalt.