Τι είναι η ομοιότητα διανυσμάτων;

Η ομοιότητα διανυσμάτων μετρά πόσο όμοια είναι δύο διανύσματα σε έναν πολυδιάστατο χώρο. Τα διανύσματα είναι διατεταγμένες λίστες αριθμών που αντιπροσωπεύουν σημεία δεδομένων — εμφανίζονται σε embeddings μηχανικής μάθησης, συστήματα συστάσεων, επεξεργασία φυσικής γλώσσας, αναγνώριση εικόνας και επιστημονικούς υπολογισμούς. Η σύγκριση δύο διανυσμάτων σας λέει πόσο κοντά ή σχετικά είναι τα υποκείμενα σημεία δεδομένων.

Χρησιμοποιούνται δύο βασικές έννοιες:

  • Ομοιότητα: Μια βαθμολογία που δείχνει πόσο όμοια είναι δύο διανύσματα. Οι υψηλότερες τιμές συνήθως σημαίνουν μεγαλύτερη ομοιότητα (π.χ., cosine similarity 1 σημαίνει πανομοιότυπη κατεύθυνση).
  • Απόσταση: Ένα μέτρο του πόσο μακριά είναι δύο διανύσματα. Οι χαμηλότερες τιμές συνήθως σημαίνουν μεγαλύτερη ομοιότητα (π.χ., Euclidean distance 0 σημαίνει πανομοιότυπα διανύσματα).

Περιγραφή εργαλείου

Αυτό το εργαλείο υπολογίζει την ομοιότητα ή την απόσταση μεταξύ δύο αριθμητικών διανυσμάτων χρησιμοποιώντας περισσότερες από 50 γνωστές μεθόδους από τη θεωρία πληροφοριών, τη στατιστική και τη γεωμετρία. Εισάγετε δύο διανύσματα, επιλέγετε μια μέθοδο από την καρτέλα ομοιότητας ή απόστασης, και το αποτέλεσμα υπολογίζεται αμέσως στο πρόγραμμα περιήγησής σας.

Παραδείγματα

Είσοδος

Vector A: 1, 2, 3
Vector B: 4, 5, 6
Μέθοδος Αποτέλεσμα
Cosine similarity 0.9746318461970762
Euclidean distance 5.196152422706632
Manhattan distance 16.5

Αποδεκτές μορφές εισόδου

Όλα τα παρακάτω είναι ισοδύναμα:

1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3

Χαρακτηριστικά

  • 50+ μέθοδοι — επιλέγετε από αποστάσεις (Euclidean, Manhattan, Chebyshev, Cosine, Kullback-Leibler, Jensen-Shannon, και άλλες) ή ομοιότητες (Cosine, Jaccard, Dice, Tanimoto, και άλλες)
  • Ευέλικτη είσοδος — δέχεται τιμές χωρισμένες με κόμμα, κενό ή ερωτηματικό με ή χωρίς αγκύλες
  • Άμεσα αποτελέσματα — όλος ο υπολογισμός εκτελείται στην πλευρά του πελάτη χωρίς να αποστέλλονται δεδομένα σε διακομιστή

Υποστηριζόμενες μέθοδοι

Μέθοδοι ομοιότητας

Μέθοδος Περιγραφή
Cosine Μετρά τη γωνία μεταξύ δύο διανυσμάτων· ευρέως χρησιμοποιείται στην NLP και τα συστήματα συστάσεων
Kumar-Hassebrook Γενικευμένη ομοιότητα που συνδυάζει Jaccard και cosine
Dice Διπλάσια τομή διαιρούμενη με το άθροισμα των μετρήσεων στοιχείων
Tanimoto Επεκταμένος συντελεστής Jaccard για συνεχή διανύσματα
Intersection Άθροισμα των ελάχιστων κατά στοιχείο
Czekanowski Αναλογία διπλάσιου αθροίσματος ελάχιστων προς το συνολικό άθροισμα
Motyka Τομή διαιρούμενη με το άθροισμα όλων των στοιχείων
Kulczynski Αρμονικός μέσος όρος αναλογιών ακρίβειας και ανάκλησης
Squared Chord Βασίζεται στις τετραγωνικές ρίζες των γινομένων στοιχείων
Pearson Συντελεστής γραμμικής συσχέτισης μεταξύ των δύο διανυσμάτων

Μέθοδοι απόστασης

Μέθοδος Περιγραφή
Euclidean Ευθύγραμμη απόσταση σε n-διάστατο χώρο
Squared Euclidean Euclidean απόσταση χωρίς την τετραγωνική ρίζα
Manhattan (City Block) Άθροισμα απόλυτων διαφορών κατά στοιχείο
Chebyshev Μέγιστη απόλυτη διαφορά σε όλες τις διαστάσεις
Canberra Σταθμισμένη Manhattan απόσταση ευαίσθητη σε τιμές κοντά στο μηδέν
Sørensen Άθροισμα απόλυτων διαφορών διαιρούμενο με άθροισμα όλων των τιμών
Gower Κανονικοποιημένος μέσος όρος απόλυτων διαφορών
Soergel Αναλογία απόλυτων διαφορών προς κατά στοιχείο μέγιστα
Lorentzian Άθροισμα φυσικών λογαρίθμων απόλυτων διαφορών συν ένα
Clark Σταθμισμένη απόσταση χρησιμοποιώντας απόλυτες διαφορές προς αθροίσματα
Wave Hedges Άθροισμα απόλυτων διαφορών διαιρούμενο με κατά στοιχείο μέγιστα
Czekanowski Μορφή απόστασης του συντελεστή Czekanowski
Motyka Μορφή απόστασης του συντελεστή Motyka
Kulczynski Μορφή απόστασης του συντελεστή Kulczynski
Tanimoto Μορφή απόστασης του συντελεστή Tanimoto
Ruzicka Συμπλήρωμα της ομοιότητας Ruzicka
Inner Product Αρνητικό εσωτερικό γινόμενο ως μέτρο απόστασης
Harmonic Mean Απόσταση βασισμένη στους αρμονικούς μέσους όρους ζευγών στοιχείων
Jaccard Αναλογία μη ταιριάζοντων συστατικών
Dice Μορφή απόστασης του συντελεστή Dice
Fidelity Βασίζεται στην τετραγωνική ρίζα των γινομένων στοιχείων (σχετικό με Bhattacharyya)
Bhattacharyya Μετρά την επικάλυψη μεταξύ δύο κατανομών πιθανότητας
Hellinger Τετραγωνική ρίζα της απόστασης Bhattacharyya
Matusita Τετραγωνική ρίζα του μισού αθροίσματος τετραγωνικών διαφορών τετραγωνικών ριζών
Squared Chord Μορφή απόστασης του συντελεστή Squared Chord
Pearson Μορφή απόστασης του συντελεστή συσχέτισης Pearson
Neyman Απόκλιση τύπου chi-squared
Squared Τετραγωνική απόσταση chi-squared
Probabilistic Symmetric Συμμετρική έκδοση της απόκλισης chi-squared
Divergence Διπλά σταθμισμένη τετραγωνική απόσταση
Additive Symmetric Μέσος όρος των αποκλίσεων chi-squared Neyman και Pearson
Kullback-Leibler Απόκλιση θεωρίας πληροφοριών μεταξύ κατανομών
Jeffreys Συμμετρική απόκλιση Kullback-Leibler
K Divergence Ασύμμετρη απόκλιση βασισμένη σε μέση κατανομή
Topsøe Διπλάσια απόκλιση Jensen-Shannon
Jensen-Shannon Εξομαλυμένη, συμμετρική έκδοση Kullback-Leibler
Jensen Difference Βασίζεται στην ανισότητα Jensen για κυρτές συναρτήσεις
Taneja Απόκλιση αριθμητικο-γεωμετρικού μέσου όρου
Kumar-Johnson Βασίζεται σε τετραγωνικές διαφορές άρτιων δυνάμεων
Intersection Συμπλήρωμα της ομοιότητας τομής
Average (City Block + Chebyshev) Μέσος όρος των αποστάσεων Manhattan και Chebyshev

Πώς λειτουργεί

Το εργαλείο αναλύει κάθε είσοδο διανύσματος σε μια ακολουθία αριθμών, αφαιρεί προαιρετικές αγκύλες και χωρίζει σε κόμματα, κενά ή ερωτηματικά. Στη συνέχεια, περνά και τα δύο arrays στη επιλεγμένη συνάρτηση από τη βιβλιοθήκη ml-distance, η οποία εκτελεί τον υπολογισμό σε καθαρό JavaScript. Και τα δύο διανύσματα πρέπει να έχουν τον ίδιο αριθμό διαστάσεων· διαφορετικά το εργαλείο εμφανίζει ένα σφάλμα επικύρωσης.

Περιορισμοί

  • Ορισμένες μέθοδοι (π.χ., Kullback-Leibler, Bhattacharyya) απαιτούν όλες τις τιμές να είναι αυστηρά θετικές και να αθροίζονται σε 1 (κατανομές πιθανότητας). Η χρήση αυθαίρετων διανυσμάτων μπορεί να παράγει Infinity ή NaN, τα οποία το εργαλείο αντιμετωπίζει ως σφάλμα υπολογισμού.
  • Τα πολύ μεγάλα διανύσματα (χιλιάδες διαστάσεις) υποστηρίζονται αλλά μπορεί να προκαλέσουν μια σύντομη καθυστέρηση ανάλογα με την επιλεγμένη μέθοδο.