Υπολογιστής Ομοιότητας Διανυσμάτων
Υπολογίστε την απόσταση και την ομοιότητα μεταξύ αριθμητικών διανυσμάτων χρησιμοποιώντας μεθόδους όπως cosine, euclidean, jaccard και άλλα.
Είσοδος
Έξοδος
Readme
Τι είναι η ομοιότητα διανυσμάτων;
Η ομοιότητα διανυσμάτων μετρά πόσο όμοια είναι δύο διανύσματα σε έναν πολυδιάστατο χώρο. Τα διανύσματα είναι διατεταγμένες λίστες αριθμών που αντιπροσωπεύουν σημεία δεδομένων — εμφανίζονται σε embeddings μηχανικής μάθησης, συστήματα συστάσεων, επεξεργασία φυσικής γλώσσας, αναγνώριση εικόνας και επιστημονικούς υπολογισμούς. Η σύγκριση δύο διανυσμάτων σας λέει πόσο κοντά ή σχετικά είναι τα υποκείμενα σημεία δεδομένων.
Χρησιμοποιούνται δύο βασικές έννοιες:
- Ομοιότητα: Μια βαθμολογία που δείχνει πόσο όμοια είναι δύο διανύσματα. Οι υψηλότερες τιμές συνήθως σημαίνουν μεγαλύτερη ομοιότητα (π.χ., cosine similarity 1 σημαίνει πανομοιότυπη κατεύθυνση).
- Απόσταση: Ένα μέτρο του πόσο μακριά είναι δύο διανύσματα. Οι χαμηλότερες τιμές συνήθως σημαίνουν μεγαλύτερη ομοιότητα (π.χ., Euclidean distance 0 σημαίνει πανομοιότυπα διανύσματα).
Περιγραφή εργαλείου
Αυτό το εργαλείο υπολογίζει την ομοιότητα ή την απόσταση μεταξύ δύο αριθμητικών διανυσμάτων χρησιμοποιώντας περισσότερες από 50 γνωστές μεθόδους από τη θεωρία πληροφοριών, τη στατιστική και τη γεωμετρία. Εισάγετε δύο διανύσματα, επιλέγετε μια μέθοδο από την καρτέλα ομοιότητας ή απόστασης, και το αποτέλεσμα υπολογίζεται αμέσως στο πρόγραμμα περιήγησής σας.
Παραδείγματα
Είσοδος
Vector A: 1, 2, 3
Vector B: 4, 5, 6| Μέθοδος | Αποτέλεσμα |
|---|---|
| Cosine similarity | 0.9746318461970762 |
| Euclidean distance | 5.196152422706632 |
| Manhattan distance | 16.5 |
Αποδεκτές μορφές εισόδου
Όλα τα παρακάτω είναι ισοδύναμα:
1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3Χαρακτηριστικά
- 50+ μέθοδοι — επιλέγετε από αποστάσεις (Euclidean, Manhattan, Chebyshev, Cosine, Kullback-Leibler, Jensen-Shannon, και άλλες) ή ομοιότητες (Cosine, Jaccard, Dice, Tanimoto, και άλλες)
- Ευέλικτη είσοδος — δέχεται τιμές χωρισμένες με κόμμα, κενό ή ερωτηματικό με ή χωρίς αγκύλες
- Άμεσα αποτελέσματα — όλος ο υπολογισμός εκτελείται στην πλευρά του πελάτη χωρίς να αποστέλλονται δεδομένα σε διακομιστή
Υποστηριζόμενες μέθοδοι
Μέθοδοι ομοιότητας
| Μέθοδος | Περιγραφή |
|---|---|
| Cosine | Μετρά τη γωνία μεταξύ δύο διανυσμάτων· ευρέως χρησιμοποιείται στην NLP και τα συστήματα συστάσεων |
| Kumar-Hassebrook | Γενικευμένη ομοιότητα που συνδυάζει Jaccard και cosine |
| Dice | Διπλάσια τομή διαιρούμενη με το άθροισμα των μετρήσεων στοιχείων |
| Tanimoto | Επεκταμένος συντελεστής Jaccard για συνεχή διανύσματα |
| Intersection | Άθροισμα των ελάχιστων κατά στοιχείο |
| Czekanowski | Αναλογία διπλάσιου αθροίσματος ελάχιστων προς το συνολικό άθροισμα |
| Motyka | Τομή διαιρούμενη με το άθροισμα όλων των στοιχείων |
| Kulczynski | Αρμονικός μέσος όρος αναλογιών ακρίβειας και ανάκλησης |
| Squared Chord | Βασίζεται στις τετραγωνικές ρίζες των γινομένων στοιχείων |
| Pearson | Συντελεστής γραμμικής συσχέτισης μεταξύ των δύο διανυσμάτων |
Μέθοδοι απόστασης
| Μέθοδος | Περιγραφή |
|---|---|
| Euclidean | Ευθύγραμμη απόσταση σε n-διάστατο χώρο |
| Squared Euclidean | Euclidean απόσταση χωρίς την τετραγωνική ρίζα |
| Manhattan (City Block) | Άθροισμα απόλυτων διαφορών κατά στοιχείο |
| Chebyshev | Μέγιστη απόλυτη διαφορά σε όλες τις διαστάσεις |
| Canberra | Σταθμισμένη Manhattan απόσταση ευαίσθητη σε τιμές κοντά στο μηδέν |
| Sørensen | Άθροισμα απόλυτων διαφορών διαιρούμενο με άθροισμα όλων των τιμών |
| Gower | Κανονικοποιημένος μέσος όρος απόλυτων διαφορών |
| Soergel | Αναλογία απόλυτων διαφορών προς κατά στοιχείο μέγιστα |
| Lorentzian | Άθροισμα φυσικών λογαρίθμων απόλυτων διαφορών συν ένα |
| Clark | Σταθμισμένη απόσταση χρησιμοποιώντας απόλυτες διαφορές προς αθροίσματα |
| Wave Hedges | Άθροισμα απόλυτων διαφορών διαιρούμενο με κατά στοιχείο μέγιστα |
| Czekanowski | Μορφή απόστασης του συντελεστή Czekanowski |
| Motyka | Μορφή απόστασης του συντελεστή Motyka |
| Kulczynski | Μορφή απόστασης του συντελεστή Kulczynski |
| Tanimoto | Μορφή απόστασης του συντελεστή Tanimoto |
| Ruzicka | Συμπλήρωμα της ομοιότητας Ruzicka |
| Inner Product | Αρνητικό εσωτερικό γινόμενο ως μέτρο απόστασης |
| Harmonic Mean | Απόσταση βασισμένη στους αρμονικούς μέσους όρους ζευγών στοιχείων |
| Jaccard | Αναλογία μη ταιριάζοντων συστατικών |
| Dice | Μορφή απόστασης του συντελεστή Dice |
| Fidelity | Βασίζεται στην τετραγωνική ρίζα των γινομένων στοιχείων (σχετικό με Bhattacharyya) |
| Bhattacharyya | Μετρά την επικάλυψη μεταξύ δύο κατανομών πιθανότητας |
| Hellinger | Τετραγωνική ρίζα της απόστασης Bhattacharyya |
| Matusita | Τετραγωνική ρίζα του μισού αθροίσματος τετραγωνικών διαφορών τετραγωνικών ριζών |
| Squared Chord | Μορφή απόστασης του συντελεστή Squared Chord |
| Pearson | Μορφή απόστασης του συντελεστή συσχέτισης Pearson |
| Neyman | Απόκλιση τύπου chi-squared |
| Squared | Τετραγωνική απόσταση chi-squared |
| Probabilistic Symmetric | Συμμετρική έκδοση της απόκλισης chi-squared |
| Divergence | Διπλά σταθμισμένη τετραγωνική απόσταση |
| Additive Symmetric | Μέσος όρος των αποκλίσεων chi-squared Neyman και Pearson |
| Kullback-Leibler | Απόκλιση θεωρίας πληροφοριών μεταξύ κατανομών |
| Jeffreys | Συμμετρική απόκλιση Kullback-Leibler |
| K Divergence | Ασύμμετρη απόκλιση βασισμένη σε μέση κατανομή |
| Topsøe | Διπλάσια απόκλιση Jensen-Shannon |
| Jensen-Shannon | Εξομαλυμένη, συμμετρική έκδοση Kullback-Leibler |
| Jensen Difference | Βασίζεται στην ανισότητα Jensen για κυρτές συναρτήσεις |
| Taneja | Απόκλιση αριθμητικο-γεωμετρικού μέσου όρου |
| Kumar-Johnson | Βασίζεται σε τετραγωνικές διαφορές άρτιων δυνάμεων |
| Intersection | Συμπλήρωμα της ομοιότητας τομής |
| Average (City Block + Chebyshev) | Μέσος όρος των αποστάσεων Manhattan και Chebyshev |
Πώς λειτουργεί
Το εργαλείο αναλύει κάθε είσοδο διανύσματος σε μια ακολουθία αριθμών, αφαιρεί προαιρετικές αγκύλες και χωρίζει σε κόμματα, κενά ή ερωτηματικά. Στη συνέχεια, περνά και τα δύο arrays στη επιλεγμένη συνάρτηση από τη βιβλιοθήκη ml-distance, η οποία εκτελεί τον υπολογισμό σε καθαρό JavaScript. Και τα δύο διανύσματα πρέπει να έχουν τον ίδιο αριθμό διαστάσεων· διαφορετικά το εργαλείο εμφανίζει ένα σφάλμα επικύρωσης.
Περιορισμοί
- Ορισμένες μέθοδοι (π.χ., Kullback-Leibler, Bhattacharyya) απαιτούν όλες τις τιμές να είναι αυστηρά θετικές και να αθροίζονται σε 1 (κατανομές πιθανότητας). Η χρήση αυθαίρετων διανυσμάτων μπορεί να παράγει
InfinityήNaN, τα οποία το εργαλείο αντιμετωπίζει ως σφάλμα υπολογισμού. - Τα πολύ μεγάλα διανύσματα (χιλιάδες διαστάσεις) υποστηρίζονται αλλά μπορεί να προκαλέσουν μια σύντομη καθυστέρηση ανάλογα με την επιλεγμένη μέθοδο.