Какво е векторна сходство?

Векторната сходство измерва колко подобни са два вектора в многомерно пространство. Векторите са подредени списъци с числа, които представляват точки от данни — те се появяват в машинното обучение embeddings, системи за препоръки, обработка на естествен език, разпознаване на изображения и научни изчисления. Сравняването на два вектора ви казва колко близки или свързани са основните точки от данни.

Използват се два основни концепта:

  • Сходство: Оценка, която показва колко подобни са два вектора. По-високите стойности обикновено означават по-голямо сходство (например, косинусното сходство от 1 означава идентична посока).
  • Разстояние: Мярка за това колко далеч са един от друг два вектора. По-ниските стойности обикновено означават по-голямо сходство (например, евклидовото разстояние от 0 означава идентични вектори).

Описание на инструмента

Този инструмент изчислява сходството или разстоянието между два числови вектора, използвайки над 50 добре известни методи от теорията на информацията, статистиката и геометрията. Въведете два вектора, изберете метод от раздела за сходство или разстояние, и резултатът се изчислява мигновено в браузъра ви.

Примери

Вход

Vector A: 1, 2, 3
Vector B: 4, 5, 6
Метод Резултат
Косинусно сходство 0.9746318461970762
Евклидово разстояние 5.196152422706632
Манхатънско разстояние 16.5

Приемани формати на входа

Всички от следните са еквивалентни:

1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3

Функции

  • 50+ методи — изберете от разстояния (Евклидово, Манхатънско, Чебишев, Косинусно, Kullback-Leibler, Jensen-Shannon и други) или сходства (Косинусно, Jaccard, Dice, Tanimoto и други)
  • Гъвкав вход — приема стойности разделени със запетаи, интервали или точки и запетаи с или без скоби
  • Мигновени резултати — всички изчисления се извършват на страната на клиента без изпращане на данни към сървър

Поддържани методи

Методи за сходство

Метод Описание
Cosine Измерва ъгъла между два вектора; широко използван в NLP и системи за препоръки
Kumar-Hassebrook Обобщено сходство, комбиниращо Jaccard и косинусно
Dice Два пъти пресечната точка разделена на сумата от броя елементи
Tanimoto Разширен коефициент на Jaccard за непрекъснати вектори
Intersection Сума на елементните минимуми
Czekanowski Съотношение на два пъти сумата на минимумите към общата сума
Motyka Пресечната точка разделена на сумата на всички елементи
Kulczynski Хармонична средна стойност на съотношенията, подобни на прецизност и припомняне
Squared Chord Базирано на квадратните корени на произведенията на елементите
Pearson Коефициент на линейна корелация между двата вектора

Методи за разстояние

Метод Описание
Euclidean Разстояние по права линия в n-мерно пространство
Squared Euclidean Евклидово разстояние без квадратния корен
Manhattan (City Block) Сума на абсолютните елементни разлики
Chebyshev Максимална абсолютна разлика във всички измерения
Canberra Претеглено манхатънско разстояние, чувствително към стойности близо до нула
Sørensen Сума на абсолютните разлики разделена на сумата на всички стойности
Gower Нормализирана средна стойност на абсолютните разлики
Soergel Съотношение на абсолютните разлики към елементните максимуми
Lorentzian Сума на естествени логаритми на абсолютните разлики плюс един
Clark Претеглено разстояние, използвайки абсолютни разлики над суми
Wave Hedges Сума на абсолютните разлики разделена на елементните максимуми
Czekanowski Форма на разстояние на коефициента на Czekanowski
Motyka Форма на разстояние на коефициента на Motyka
Kulczynski Форма на разстояние на коефициента на Kulczynski
Tanimoto Форма на разстояние на коефициента на Tanimoto
Ruzicka Допълнение на сходството на Ruzicka
Inner Product Отрицателен точков продукт като мярка за разстояние
Harmonic Mean Разстояние, базирано на хармонични средни стойности на двойки елементи
Jaccard Пропорция на несъответстващите компоненти
Dice Форма на разстояние на коефициента на Dice
Fidelity Базирано на квадратния корен на произведенията на елементите (свързано с Bhattacharyya)
Bhattacharyya Измерва припокриването между две разпределения на вероятностите
Hellinger Квадратен корен на разстоянието на Bhattacharyya
Matusita Квадратен корен на половината от сумата на квадратните разлики на квадратните корени
Squared Chord Форма на разстояние на коефициента на Squared Chord
Pearson Форма на разстояние на коефициента на корелация на Pearson
Neyman Дивергенция от тип хи-квадрат
Squared Квадратно разстояние хи-квадрат
Probabilistic Symmetric Симетрична версия на дивергенцията хи-квадрат
Divergence Двойно претеглено квадратно разстояние
Additive Symmetric Средна стойност на дивергенциите хи-квадрат на Neyman и Pearson
Kullback-Leibler Информационно-теоретична дивергенция между разпределенията
Jeffreys Симетрична дивергенция на Kullback-Leibler
K Divergence Асиметрична дивергенция, базирана на средното разпределение
Topsøe Два пъти дивергенцията на Jensen-Shannon
Jensen-Shannon Изглаждена, симетрична версия на Kullback-Leibler
Jensen Difference Базирано на неравенството на Jensen за изпъкнали функции
Taneja Дивергенция на аритметично-геометричната средна стойност
Kumar-Johnson Базирано на квадратни разлики на четни степени
Intersection Допълнение на сходството на пресечната точка
Average (City Block + Chebyshev) Средна стойност на манхатънското и чебишевското разстояния

Как работи

Инструментът анализира всеки вход на вектор в последователност от числа, премахва незадължителни скоби и разделя на запетаи, интервали или точки и запетаи. След това предава двата масива на избраната функция от библиотеката ml-distance, която извършва изчислението в чист JavaScript. И двата вектора трябва да имат същия брой измерения; в противен случай инструментът показва грешка при валидация.

Ограничения

  • Някои методи (например Kullback-Leibler, Bhattacharyya) изискват всички стойности да бъдат строго положителни и да се събират до 1 (разпределения на вероятностите). Използването на произволни вектори може да произведе Infinity или NaN, което инструментът третира като грешка при изчисление.
  • Много големи вектори (хиляди измерения) се поддържат, но могат да причинят кратко забавяне в зависимост от избрания метод.