Vektör benzerliği nedir?

Vektör benzerliği, iki vektörün çok boyutlu bir uzayda ne kadar benzer olduğunu ölçer. Vektörler, veri noktalarını temsil eden sıralı sayı listeleridir — makine öğrenmesi gömülmeleri, öneri sistemleri, doğal dil işleme, görüntü tanıma ve bilimsel hesaplamada görünürler. İki vektörü karşılaştırmak, temel alınan veri noktalarının ne kadar yakın veya ilişkili olduğunu söyler.

İki temel kavram kullanılır:

  • Benzerlik: İki vektörün ne kadar benzer olduğunu gösteren bir puan. Daha yüksek değerler genellikle daha benzer anlamına gelir (örneğin, kosinüs benzerliği 1, özdeş yönü anlamına gelir).
  • Mesafe: İki vektörün ne kadar uzak olduğunu ölçen bir değer. Daha düşük değerler genellikle daha benzer anlamına gelir (örneğin, Öklid mesafesi 0, özdeş vektörleri anlamına gelir).

Araç açıklaması

Bu araç, bilgi teorisi, istatistik ve geometriden 50'den fazla iyi bilinen yöntemi kullanarak iki sayısal vektör arasındaki benzerliği veya mesafeyi hesaplar. İki vektör girin, benzerlik veya mesafe sekmesinden bir yöntem seçin ve sonuç tarayıcınızda anında hesaplanır.

Örnekler

Giriş

Vektör A: 1, 2, 3
Vektör B: 4, 5, 6
Yöntem Sonuç
Kosinüs benzerliği 0.9746318461970762
Öklid mesafesi 5.196152422706632
Manhattan mesafesi 16.5

Kabul edilen giriş biçimleri

Aşağıdakilerin tümü eşdeğerdir:

1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3

Özellikler

  • 50+ yöntem — mesafeler (Öklid, Manhattan, Chebyshev, Kosinüs, Kullback-Leibler, Jensen-Shannon ve daha fazlası) veya benzerlikler (Kosinüs, Jaccard, Dice, Tanimoto ve daha fazlası) arasından seçim yapın
  • Esnek giriş — virgül, boşluk veya noktalı virgülle ayrılmış değerleri parantez ile veya parantez olmadan kabul eder
  • Anında sonuçlar — tüm hesaplamalar istemci tarafında çalışır ve sunucuya veri gönderilmez

Desteklenen yöntemler

Benzerlik yöntemleri

Yöntem Açıklama
Kosinüs İki vektör arasındaki açıyı ölçer; NLP ve öneri sistemlerinde yaygın olarak kullanılır
Kumar-Hassebrook Jaccard ve kosinüsü birleştiren genelleştirilmiş benzerlik
Dice Kesişim sayısının iki katı bölü eleman sayılarının toplamı
Tanimoto Sürekli vektörler için genişletilmiş Jaccard katsayısı
Kesişim Eleman bazında minimumların toplamı
Czekanowski Minimumların toplamının iki katının toplam toplamına oranı
Motyka Kesişim bölü tüm elemanların toplamı
Kulczynski Kesinlik ve geri çağırma benzeri oranların harmonik ortalaması
Kare Akor Eleman ürünlerinin kare köklerine dayalı
Pearson İki vektör arasındaki doğrusal korelasyon katsayısı

Mesafe yöntemleri

Yöntem Açıklama
Öklid n-boyutlu uzayda düz çizgi mesafesi
Kare Öklid Kare kök olmadan Öklid mesafesi
Manhattan (Şehir Bloğu) Mutlak eleman bazında farkların toplamı
Chebyshev Tüm boyutlar arasında maksimum mutlak fark
Canberra Sıfıra yakın değerlere duyarlı ağırlıklı Manhattan mesafesi
Sørensen Mutlak farkların toplamı bölü tüm değerlerin toplamı
Gower Mutlak farkların normalize edilmiş ortalaması
Soergel Mutlak farkların eleman bazında maksimumlarına oranı
Lorentzian Mutlak farkların doğal logaritmalarının toplamı artı bir
Clark Mutlak farkları toplamlar üzerinden kullanan ağırlıklı mesafe
Wave Hedges Mutlak farkların toplamı bölü eleman bazında maksimumlar
Czekanowski Czekanowski katsayısının mesafe biçimi
Motyka Motyka katsayısının mesafe biçimi
Kulczynski Kulczynski katsayısının mesafe biçimi
Tanimoto Tanimoto katsayısının mesafe biçimi
Ruzicka Ruzicka benzerliğinin tamamlayıcısı
İç Çarpım Mesafe ölçüsü olarak negatif nokta çarpımı
Harmonik Ortalama Eleman çiftlerinin harmonik ortalamasına dayalı mesafe
Jaccard Eşleşmeyen bileşenlerin oranı
Dice Dice katsayısının mesafe biçimi
Sadakat Eleman ürünlerinin kare köklerine dayalı (Bhattacharyya ile ilişkili)
Bhattacharyya İki olasılık dağılımı arasındaki örtüşmeyi ölçer
Hellinger Bhattacharyya mesafesinin kare kökü
Matusita Kare köklerin kare farkları toplamının yarısının kare kökü
Kare Akor Kare Akor katsayısının mesafe biçimi
Pearson Pearson korelasyon katsayısının mesafe biçimi
Neyman Ki-kare benzeri sapma
Kare Kare ki-kare mesafesi
Olasılıksal Simetrik Ki-kare sapmasının simetrik versiyonu
Sapma Çift ağırlıklı kare mesafe
Katkı Simetrik Neyman ve Pearson ki-kare sapmalarının ortalaması
Kullback-Leibler Dağılımlar arasında bilgi-teorik sapma
Jeffreys Simetrik Kullback-Leibler sapması
K Sapması Ortalama dağılıma dayalı asimetrik sapma
Topsøe Jensen-Shannon sapmasının iki katı
Jensen-Shannon Kullback-Leibler'in yumuşatılmış, simetrik versiyonu
Jensen Farkı Jensen eşitsizliğine dayalı dışbükey fonksiyonlar için
Taneja Aritmetik-geometrik ortalama sapması
Kumar-Johnson Çift kuvvetlerin kare farkına dayalı
Kesişim Kesişim benzerliğinin tamamlayıcısı
Ortalama (Şehir Bloğu + Chebyshev) Manhattan ve Chebyshev mesafelerinin ortalaması

Nasıl çalışır

Araç, her vektör girişini bir sayı dizisine ayrıştırır, isteğe bağlı parantezleri kaldırır ve virgül, boşluk veya noktalı virgülle böler. Daha sonra her iki diziyi ml-distance kütüphanesinden seçilen işleve iletir ve hesaplamayı saf JavaScript'te gerçekleştirir. Her iki vektörün aynı sayıda boyuta sahip olması gerekir; aksi takdirde araç bir doğrulama hatası gösterir.

Sınırlamalar

  • Bazı yöntemler (örneğin, Kullback-Leibler, Bhattacharyya) tüm değerlerin kesinlikle pozitif olmasını ve 1'e toplanmasını gerektirir (olasılık dağılımları). Rastgele vektörleri kullanmak Infinity veya NaN üretebilir ve araç bunu bir hesaplama hatası olarak değerlendirir.
  • Çok büyük vektörler (binlerce boyut) desteklenir ancak seçilen yönteme bağlı olarak kısa bir gecikmeye neden olabilir.