Калкулатор за сходство на вектори
Изчислете разстояние и сходство между числови вектори, използвайки методи като cosine, euclidean, jaccard и други.
Вход
Изход
Прочети ме
Какво е векторна сходство?
Векторната сходство измерва колко подобни са два вектора в многомерно пространство. Векторите са подредени списъци с числа, които представляват точки от данни — те се появяват в машинното обучение embeddings, системи за препоръки, обработка на естествен език, разпознаване на изображения и научни изчисления. Сравняването на два вектора ви казва колко близки или свързани са основните точки от данни.
Използват се два основни концепта:
- Сходство: Оценка, която показва колко подобни са два вектора. По-високите стойности обикновено означават по-голямо сходство (например, косинусното сходство от 1 означава идентична посока).
- Разстояние: Мярка за това колко далеч са един от друг два вектора. По-ниските стойности обикновено означават по-голямо сходство (например, евклидовото разстояние от 0 означава идентични вектори).
Описание на инструмента
Този инструмент изчислява сходството или разстоянието между два числови вектора, използвайки над 50 добре известни методи от теорията на информацията, статистиката и геометрията. Въведете два вектора, изберете метод от раздела за сходство или разстояние, и резултатът се изчислява мигновено в браузъра ви.
Примери
Вход
Vector A: 1, 2, 3
Vector B: 4, 5, 6| Метод | Резултат |
|---|---|
| Косинусно сходство | 0.9746318461970762 |
| Евклидово разстояние | 5.196152422706632 |
| Манхатънско разстояние | 16.5 |
Приемани формати на входа
Всички от следните са еквивалентни:
1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3Функции
- 50+ методи — изберете от разстояния (Евклидово, Манхатънско, Чебишев, Косинусно, Kullback-Leibler, Jensen-Shannon и други) или сходства (Косинусно, Jaccard, Dice, Tanimoto и други)
- Гъвкав вход — приема стойности разделени със запетаи, интервали или точки и запетаи с или без скоби
- Мигновени резултати — всички изчисления се извършват на страната на клиента без изпращане на данни към сървър
Поддържани методи
Методи за сходство
| Метод | Описание |
|---|---|
| Cosine | Измерва ъгъла между два вектора; широко използван в NLP и системи за препоръки |
| Kumar-Hassebrook | Обобщено сходство, комбиниращо Jaccard и косинусно |
| Dice | Два пъти пресечната точка разделена на сумата от броя елементи |
| Tanimoto | Разширен коефициент на Jaccard за непрекъснати вектори |
| Intersection | Сума на елементните минимуми |
| Czekanowski | Съотношение на два пъти сумата на минимумите към общата сума |
| Motyka | Пресечната точка разделена на сумата на всички елементи |
| Kulczynski | Хармонична средна стойност на съотношенията, подобни на прецизност и припомняне |
| Squared Chord | Базирано на квадратните корени на произведенията на елементите |
| Pearson | Коефициент на линейна корелация между двата вектора |
Методи за разстояние
| Метод | Описание |
|---|---|
| Euclidean | Разстояние по права линия в n-мерно пространство |
| Squared Euclidean | Евклидово разстояние без квадратния корен |
| Manhattan (City Block) | Сума на абсолютните елементни разлики |
| Chebyshev | Максимална абсолютна разлика във всички измерения |
| Canberra | Претеглено манхатънско разстояние, чувствително към стойности близо до нула |
| Sørensen | Сума на абсолютните разлики разделена на сумата на всички стойности |
| Gower | Нормализирана средна стойност на абсолютните разлики |
| Soergel | Съотношение на абсолютните разлики към елементните максимуми |
| Lorentzian | Сума на естествени логаритми на абсолютните разлики плюс един |
| Clark | Претеглено разстояние, използвайки абсолютни разлики над суми |
| Wave Hedges | Сума на абсолютните разлики разделена на елементните максимуми |
| Czekanowski | Форма на разстояние на коефициента на Czekanowski |
| Motyka | Форма на разстояние на коефициента на Motyka |
| Kulczynski | Форма на разстояние на коефициента на Kulczynski |
| Tanimoto | Форма на разстояние на коефициента на Tanimoto |
| Ruzicka | Допълнение на сходството на Ruzicka |
| Inner Product | Отрицателен точков продукт като мярка за разстояние |
| Harmonic Mean | Разстояние, базирано на хармонични средни стойности на двойки елементи |
| Jaccard | Пропорция на несъответстващите компоненти |
| Dice | Форма на разстояние на коефициента на Dice |
| Fidelity | Базирано на квадратния корен на произведенията на елементите (свързано с Bhattacharyya) |
| Bhattacharyya | Измерва припокриването между две разпределения на вероятностите |
| Hellinger | Квадратен корен на разстоянието на Bhattacharyya |
| Matusita | Квадратен корен на половината от сумата на квадратните разлики на квадратните корени |
| Squared Chord | Форма на разстояние на коефициента на Squared Chord |
| Pearson | Форма на разстояние на коефициента на корелация на Pearson |
| Neyman | Дивергенция от тип хи-квадрат |
| Squared | Квадратно разстояние хи-квадрат |
| Probabilistic Symmetric | Симетрична версия на дивергенцията хи-квадрат |
| Divergence | Двойно претеглено квадратно разстояние |
| Additive Symmetric | Средна стойност на дивергенциите хи-квадрат на Neyman и Pearson |
| Kullback-Leibler | Информационно-теоретична дивергенция между разпределенията |
| Jeffreys | Симетрична дивергенция на Kullback-Leibler |
| K Divergence | Асиметрична дивергенция, базирана на средното разпределение |
| Topsøe | Два пъти дивергенцията на Jensen-Shannon |
| Jensen-Shannon | Изглаждена, симетрична версия на Kullback-Leibler |
| Jensen Difference | Базирано на неравенството на Jensen за изпъкнали функции |
| Taneja | Дивергенция на аритметично-геометричната средна стойност |
| Kumar-Johnson | Базирано на квадратни разлики на четни степени |
| Intersection | Допълнение на сходството на пресечната точка |
| Average (City Block + Chebyshev) | Средна стойност на манхатънското и чебишевското разстояния |
Как работи
Инструментът анализира всеки вход на вектор в последователност от числа, премахва незадължителни скоби и разделя на запетаи, интервали или точки и запетаи. След това предава двата масива на избраната функция от библиотеката ml-distance, която извършва изчислението в чист JavaScript. И двата вектора трябва да имат същия брой измерения; в противен случай инструментът показва грешка при валидация.
Ограничения
- Някои методи (например Kullback-Leibler, Bhattacharyya) изискват всички стойности да бъдат строго положителни и да се събират до 1 (разпределения на вероятностите). Използването на произволни вектори може да произведе
InfinityилиNaN, което инструментът третира като грешка при изчисление. - Много големи вектори (хиляди измерения) се поддържат, но могат да причинят кратко забавяне в зависимост от избрания метод.