Mis on vektori sarnasus?

Vektori sarnasus mõõdab, kui sarnased kaks vektorit on mitmedimensioonilises ruumis. Vektorid on arvude järjestatud loendid, mis esindavad andmepunkte — need esinevad masinõppe manustamisel, soovitussüsteemides, loomulikul keelel töötlemisel, pildituvastamisel ja teaduslikus arvutamisel. Kahe vektori võrdlemine näitab, kui lähedased või seotud on alusandmepunktid.

Kasutatakse kahte põhikontseptsiooni:

  • Sarnasus: Skoor, mis näitab, kui sarnased kaks vektorit on. Kõrgemad väärtused tähendavad tavaliselt suuremat sarnasust (nt kosinuse sarnasus 1 tähendab identset suunda).
  • Kaugus: Mõõt, mis näitab, kui kaugel kaks vektorit üksteisest on. Madalamad väärtused tähendavad tavaliselt suuremat sarnasust (nt Eukleidese kaugus 0 tähendab identseid vektoreid).

Tööriista kirjeldus

See tööriist arvutab kahe arvulise vektori sarnasuse või kauguse, kasutades üle 50 hästi tuntud meetodit infoteooriast, statistikast ja geomeetriast. Sisestage kaks vektorit, valige meetod sarnasuse või kauguse vahekaardilt ja tulemus arvutatakse koheselt teie brauseris.

Näited

Sisend

Vektor A: 1, 2, 3
Vektor B: 4, 5, 6
Meetod Tulemus
Kosinuse sarnasus 0.9746318461970762
Eukleidese kaugus 5.196152422706632
Manhattani kaugus 16.5

Aktsepteeritud sisendvormingud

Kõik järgmised on samaväärsed:

1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3

Funktsioonid

  • 50+ meetodit — valige kauguste (Eukleidese, Manhattani, Tšebõševi, Kosinuse, Kullback-Leibleri, Jensen-Shannoni ja muud) või sarnasuste (Kosinuse, Jaccardi, Dice, Tanimoto ja muud) hulgast
  • Paindlik sisend — aktsepteerib komaga, tühikuga või semikooloniga eraldatud väärtusi sulgudega või ilma
  • Kohesed tulemused — kogu arvutus käib kliendi poolel, andmeid serverile ei saadeta

Toetatud meetodid

Sarnasuse meetodid

Meetod Kirjeldus
Kosinuse sarnasus Mõõdab nurka kahe vektori vahel; laialdaselt kasutusel NLP-s ja soovitussüsteemides
Kumar-Hassebrook Üldistatud sarnasus, mis ühendab Jaccardi ja kosinuse
Dice Kaks korda ristumist jagatud elementide arvu summaga
Tanimoto Laiendatud Jaccardi koefitsient pidevate vektorite jaoks
Ristumiskoht Elementide kaupa miinimumide summa
Czekanowski Kahe miinimumide summa suhe kogusummasse
Motyka Ristumiskoht jagatud kõigi elementide summaga
Kulczynski Täpsuse ja tagasikutsumisega sarnaste suhtarvude harmooniline keskmine
Squared Chord Põhineb elementide korrutiste ruutjuurtel
Pearson Lineaarne korrelatsioonikordaja kahe vektori vahel

Kauguse meetodid

Meetod Kirjeldus
Eukleidese kaugus Sirgjooneline kaugus n-mõõtmelises ruumis
Squared Euclidean Eukleidese kaugus ilma ruutjuureta
Manhattani kaugus (City Block) Absoluutsete elementide kaupa erinevuste summa
Tšebõšev Maksimaalne absoluutne erinevus kõigi dimensioonide lõikes
Canberra Kaalutud Manhattani kaugus, mis on tundlik nullilähedaste väärtuste suhtes
Sørensen Absoluutsete erinevuste summa jagatud kõigi väärtuste summaga
Gower Normaliseeritud absoluutsete erinevuste keskmine
Soergel Absoluutsete erinevuste suhe elementide kaupa maksimumsidesse
Lorentzian Naturaalsete logaritmide summa absoluutsetest erinevustest pluss üks
Clark Kaalutud kaugus, kasutades absoluutseid erinevusi summade üle
Wave Hedges Absoluutsete erinevuste summa jagatud elementide kaupa maksimumsidesse
Czekanowski Czekanowski koefitsiendi kauguse vorm
Motyka Motyka koefitsiendi kauguse vorm
Kulczynski Kulczynski koefitsiendi kauguse vorm
Tanimoto Tanimoto koefitsiendi kauguse vorm
Ruzicka Ruzicka sarnasuse täiend
Sisemine korrutis Negatiivne skalaarkorrutis kui kauguse mõõt
Harmooniline keskmine Kaugus, mis põhineb elementide paaride harmoonilisele keskmisele
Jaccard Mittevastavate komponentide osakaal
Dice Dice koefitsiendi kauguse vorm
Fidelity Põhineb elementide korrutiste ruutjuurel (Bhattacharyya-seotud)
Bhattacharyya Mõõdab kahe tõenäosusjaotuse kattumist
Hellinger Bhattacharyya kauguse ruutjuur
Matusita Ruutjuur poolest ruudus erinevuste summast ruutjuurtest
Squared Chord Squared Chord koefitsiendi kauguse vorm
Pearson Pearsoni korrelatsioonikordaja kauguse vorm
Neyman Chi-ruudu tüüpi lahknevus
Squared Ruudus chi-ruudu kaugus
Probabilistic Symmetric Chi-ruudu lahknevuse sümmeetriline versioon
Divergence Kahekordse kaaluga ruudus kaugus
Additive Symmetric Neymanni ja Pearsoni chi-ruudu lahknevuste keskmine
Kullback-Leibler Infoteoreetiline lahknevus jaotuste vahel
Jeffreys Sümmeetriline Kullback-Leibleri lahknevus
K Divergence Asümmeetriline lahknevus, mis põhineb keskmisele jaotusele
Topsøe Kaks korda Jensen-Shannoni lahknevust
Jensen-Shannon Silutud, sümmeetriline Kullback-Leibleri versioon
Jensen Difference Põhineb Jenseni ebavõrdsusel kumerate funktsioonide jaoks
Taneja Aritmeetilis-geomeetriline keskmine lahknevus
Kumar-Johnson Põhineb paarisastmete ruudus erinevustel
Ristumiskoht Ristumissarnasuse täiend
Keskmine (City Block + Chebyshev) Manhattani ja Tšebõševi kauguste keskmine

Kuidas see toimib

Tööriist analüüsib iga vektori sisendi arvude jadaks, eemaldab valikulised sulud ja jagab komade, tühikute või semikoolonite järgi. Seejärel edastab see mõlemad massiivid valitud funktsioonile ml-distance teegist, mis teostab arvutuse puhta JavaScriptiga. Mõlemad vektorid peavad olema sama dimensiooniga; vastasel juhul näitab tööriist valideerimisveaannet.

Piirangud

  • Mõned meetodid (nt Kullback-Leibler, Bhattacharyya) nõuavad, et kõik väärtused oleksid rangelt positiivsed ja summeeruksid 1-ks (tõenäosusjaotused). Suvaliste vektorite kasutamine võib tekitada Infinity või NaN, mida tööriist käsitleb arvutusveana.
  • Väga suured vektorid (tuhandete dimensioonidega) on toetatud, kuid võivad põhjustada lühikest viivitust valitud meetodist sõltuvalt.