Vektör Benzerliği Hesaplayıcı
Cosine, Euclidean, Jaccard ve daha fazlası dahil olmak üzere yöntemler kullanarak sayısal vektörler arasındaki mesafe ve benzerliği hesaplayın.
Girdi
Çıktı
Readme
Vektör benzerliği nedir?
Vektör benzerliği, iki vektörün çok boyutlu bir uzayda ne kadar benzer olduğunu ölçer. Vektörler, veri noktalarını temsil eden sıralı sayı listeleridir — makine öğrenmesi gömülmeleri, öneri sistemleri, doğal dil işleme, görüntü tanıma ve bilimsel hesaplamada görünürler. İki vektörü karşılaştırmak, temel alınan veri noktalarının ne kadar yakın veya ilişkili olduğunu söyler.
İki temel kavram kullanılır:
- Benzerlik: İki vektörün ne kadar benzer olduğunu gösteren bir puan. Daha yüksek değerler genellikle daha benzer anlamına gelir (örneğin, kosinüs benzerliği 1, özdeş yönü anlamına gelir).
- Mesafe: İki vektörün ne kadar uzak olduğunu ölçen bir değer. Daha düşük değerler genellikle daha benzer anlamına gelir (örneğin, Öklid mesafesi 0, özdeş vektörleri anlamına gelir).
Araç açıklaması
Bu araç, bilgi teorisi, istatistik ve geometriden 50'den fazla iyi bilinen yöntemi kullanarak iki sayısal vektör arasındaki benzerliği veya mesafeyi hesaplar. İki vektör girin, benzerlik veya mesafe sekmesinden bir yöntem seçin ve sonuç tarayıcınızda anında hesaplanır.
Örnekler
Giriş
Vektör A: 1, 2, 3
Vektör B: 4, 5, 6| Yöntem | Sonuç |
|---|---|
| Kosinüs benzerliği | 0.9746318461970762 |
| Öklid mesafesi | 5.196152422706632 |
| Manhattan mesafesi | 16.5 |
Kabul edilen giriş biçimleri
Aşağıdakilerin tümü eşdeğerdir:
1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3Özellikler
- 50+ yöntem — mesafeler (Öklid, Manhattan, Chebyshev, Kosinüs, Kullback-Leibler, Jensen-Shannon ve daha fazlası) veya benzerlikler (Kosinüs, Jaccard, Dice, Tanimoto ve daha fazlası) arasından seçim yapın
- Esnek giriş — virgül, boşluk veya noktalı virgülle ayrılmış değerleri parantez ile veya parantez olmadan kabul eder
- Anında sonuçlar — tüm hesaplamalar istemci tarafında çalışır ve sunucuya veri gönderilmez
Desteklenen yöntemler
Benzerlik yöntemleri
| Yöntem | Açıklama |
|---|---|
| Kosinüs | İki vektör arasındaki açıyı ölçer; NLP ve öneri sistemlerinde yaygın olarak kullanılır |
| Kumar-Hassebrook | Jaccard ve kosinüsü birleştiren genelleştirilmiş benzerlik |
| Dice | Kesişim sayısının iki katı bölü eleman sayılarının toplamı |
| Tanimoto | Sürekli vektörler için genişletilmiş Jaccard katsayısı |
| Kesişim | Eleman bazında minimumların toplamı |
| Czekanowski | Minimumların toplamının iki katının toplam toplamına oranı |
| Motyka | Kesişim bölü tüm elemanların toplamı |
| Kulczynski | Kesinlik ve geri çağırma benzeri oranların harmonik ortalaması |
| Kare Akor | Eleman ürünlerinin kare köklerine dayalı |
| Pearson | İki vektör arasındaki doğrusal korelasyon katsayısı |
Mesafe yöntemleri
| Yöntem | Açıklama |
|---|---|
| Öklid | n-boyutlu uzayda düz çizgi mesafesi |
| Kare Öklid | Kare kök olmadan Öklid mesafesi |
| Manhattan (Şehir Bloğu) | Mutlak eleman bazında farkların toplamı |
| Chebyshev | Tüm boyutlar arasında maksimum mutlak fark |
| Canberra | Sıfıra yakın değerlere duyarlı ağırlıklı Manhattan mesafesi |
| Sørensen | Mutlak farkların toplamı bölü tüm değerlerin toplamı |
| Gower | Mutlak farkların normalize edilmiş ortalaması |
| Soergel | Mutlak farkların eleman bazında maksimumlarına oranı |
| Lorentzian | Mutlak farkların doğal logaritmalarının toplamı artı bir |
| Clark | Mutlak farkları toplamlar üzerinden kullanan ağırlıklı mesafe |
| Wave Hedges | Mutlak farkların toplamı bölü eleman bazında maksimumlar |
| Czekanowski | Czekanowski katsayısının mesafe biçimi |
| Motyka | Motyka katsayısının mesafe biçimi |
| Kulczynski | Kulczynski katsayısının mesafe biçimi |
| Tanimoto | Tanimoto katsayısının mesafe biçimi |
| Ruzicka | Ruzicka benzerliğinin tamamlayıcısı |
| İç Çarpım | Mesafe ölçüsü olarak negatif nokta çarpımı |
| Harmonik Ortalama | Eleman çiftlerinin harmonik ortalamasına dayalı mesafe |
| Jaccard | Eşleşmeyen bileşenlerin oranı |
| Dice | Dice katsayısının mesafe biçimi |
| Sadakat | Eleman ürünlerinin kare köklerine dayalı (Bhattacharyya ile ilişkili) |
| Bhattacharyya | İki olasılık dağılımı arasındaki örtüşmeyi ölçer |
| Hellinger | Bhattacharyya mesafesinin kare kökü |
| Matusita | Kare köklerin kare farkları toplamının yarısının kare kökü |
| Kare Akor | Kare Akor katsayısının mesafe biçimi |
| Pearson | Pearson korelasyon katsayısının mesafe biçimi |
| Neyman | Ki-kare benzeri sapma |
| Kare | Kare ki-kare mesafesi |
| Olasılıksal Simetrik | Ki-kare sapmasının simetrik versiyonu |
| Sapma | Çift ağırlıklı kare mesafe |
| Katkı Simetrik | Neyman ve Pearson ki-kare sapmalarının ortalaması |
| Kullback-Leibler | Dağılımlar arasında bilgi-teorik sapma |
| Jeffreys | Simetrik Kullback-Leibler sapması |
| K Sapması | Ortalama dağılıma dayalı asimetrik sapma |
| Topsøe | Jensen-Shannon sapmasının iki katı |
| Jensen-Shannon | Kullback-Leibler'in yumuşatılmış, simetrik versiyonu |
| Jensen Farkı | Jensen eşitsizliğine dayalı dışbükey fonksiyonlar için |
| Taneja | Aritmetik-geometrik ortalama sapması |
| Kumar-Johnson | Çift kuvvetlerin kare farkına dayalı |
| Kesişim | Kesişim benzerliğinin tamamlayıcısı |
| Ortalama (Şehir Bloğu + Chebyshev) | Manhattan ve Chebyshev mesafelerinin ortalaması |
Nasıl çalışır
Araç, her vektör girişini bir sayı dizisine ayrıştırır, isteğe bağlı parantezleri kaldırır ve virgül, boşluk veya noktalı virgülle böler. Daha sonra her iki diziyi ml-distance kütüphanesinden seçilen işleve iletir ve hesaplamayı saf JavaScript'te gerçekleştirir. Her iki vektörün aynı sayıda boyuta sahip olması gerekir; aksi takdirde araç bir doğrulama hatası gösterir.
Sınırlamalar
- Bazı yöntemler (örneğin, Kullback-Leibler, Bhattacharyya) tüm değerlerin kesinlikle pozitif olmasını ve 1'e toplanmasını gerektirir (olasılık dağılımları). Rastgele vektörleri kullanmak
InfinityveyaNaNüretebilir ve araç bunu bir hesaplama hatası olarak değerlendirir. - Çok büyük vektörler (binlerce boyut) desteklenir ancak seçilen yönteme bağlı olarak kısa bir gecikmeye neden olabilir.