ベクトル類似度とは?

ベクトル類似度は、多次元空間における2つのベクトルの類似度を測定します。ベクトルは、データポイントを表す順序付きの数値リストであり、機械学習の埋め込み、推奨システム、自然言語処理、画像認識、科学計算に現れます。2つのベクトルを比較することで、基礎となるデータポイント間の距離または関連性を知ることができます。

2つの中核概念が使用されます:

  • 類似度:2つのベクトルがどの程度似ているかを示すスコア。通常、値が高いほど類似度が高い(例:コサイン類似度が1の場合は方向が同じ)。
  • 距離:2つのベクトル間の離れ具合を測定する指標。通常、値が低いほど類似度が高い(例:ユークリッド距離が0の場合はベクトルが同じ)。

ツール説明

このツールは、情報理論、統計学、幾何学から50以上の周知の方法を使用して、2つの数値ベクトル間の類似度または距離を計算します。2つのベクトルを入力し、類似度または距離タブからメソッドを選択すると、結果がブラウザで即座に計算されます。

入力

Vector A: 1, 2, 3
Vector B: 4, 5, 6
メソッド 結果
コサイン類似度 0.9746318461970762
ユークリッド距離 5.196152422706632
マンハッタン距離 16.5

受け入れられる入力形式

以下はすべて同等です:

1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3

機能

  • 50以上のメソッド — 距離(ユークリッド、マンハッタン、チェビシェフ、コサイン、Kullback-Leibler、Jensen-Shannon など)または類似度(コサイン、Jaccard、Dice、Tanimoto など)から選択
  • 柔軟な入力 — カンマ、スペース、またはセミコロン区切りの値をブラケット付きまたはなしで受け入れ
  • 即座の結果 — すべての計算はクライアント側で実行され、サーバーにデータは送信されません

サポートされているメソッド

類似度メソッド

メソッド 説明
コサイン 2つのベクトル間の角度を測定。NLPと推奨システムで広く使用
Kumar-Hassebrook Jaccard とコサインを組み合わせた一般化類似度
Dice 交差の2倍を要素数の合計で除算
Tanimoto 連続ベクトル用の拡張Jaccard係数
交差 要素ごとの最小値の合計
Czekanowski 最小値の合計の2倍を全合計で除算した比率
Motyka 交差を全要素の合計で除算
Kulczynski 精度と再現率のような比率の調和平均
二乗弦 要素積の平方根に基づく
Pearson 2つのベクトル間の線形相関係数

距離メソッド

メソッド 説明
ユークリッド n次元空間における直線距離
二乗ユークリッド 平方根なしのユークリッド距離
マンハッタン(シティブロック) 要素ごとの絶対差の合計
チェビシェフ すべての次元における最大絶対差
Canberra ゼロ付近の値に敏感な重み付きマンハッタン距離
Sørensen 絶対差の合計を全値の合計で除算
Gower 絶対差の正規化平均
Soergel 絶対差を要素ごとの最大値で除算した比率
Lorentzian 絶対差の自然対数に1を加えた合計
Clark 絶対差を合計で除算した重み付き距離
Wave Hedges 絶対差の合計を要素ごとの最大値で除算
Czekanowski Czekanowski係数の距離形式
Motyka Motyka係数の距離形式
Kulczynski Kulczynski係数の距離形式
Tanimoto Tanimoto係数の距離形式
Ruzicka Ruzicka類似度の補集合
内積 距離測定としての負のドット積
調和平均 要素ペアの調和平均に基づく距離
Jaccard 一致しないコンポーネントの割合
Dice Dice係数の距離形式
忠実度 要素積の平方根に基づく(Bhattacharyya関連)
Bhattacharyya 2つの確率分布間の重複を測定
Hellinger Bhattacharyya距離の平方根
Matusita 平方根の二乗差の合計の半分の平方根
二乗弦 二乗弦係数の距離形式
Pearson Pearson相関係数の距離形式
Neyman カイ二乗型ダイバージェンス
二乗 二乗カイ二乗距離
確率対称 カイ二乗ダイバージェンスの対称版
ダイバージェンス 二重重み付き二乗距離
加法対称 NeymanとPearsonカイ二乗ダイバージェンスの平均
Kullback-Leibler 分布間の情報理論的ダイバージェンス
Jeffreys 対称Kullback-Leiblerダイバージェンス
K ダイバージェンス 平均分布に基づく非対称ダイバージェンス
Topsøe Jensen-Shannonダイバージェンスの2倍
Jensen-Shannon Kullback-Leiblerの平滑化された対称版
Jensen差分 凸関数のJensen不等式に基づく
Taneja 算術幾何平均ダイバージェンス
Kumar-Johnson 偶数乗の二乗差に基づく
交差 交差類似度の補集合
平均(シティブロック + チェビシェフ) マンハッタンとチェビシェフ距離の平均

動作原理

このツールは各ベクトル入力を数値シーケンスに解析し、オプションのブラケットを削除し、カンマ、スペース、またはセミコロンで分割します。その後、両方の配列をml-distanceライブラリから選択された関数に渡し、純粋なJavaScriptで計算を実行します。両方のベクトルは同じ次元数を持つ必要があります。そうでない場合、ツールは検証エラーを表示します。

制限事項

  • 一部のメソッド(例:Kullback-Leibler、Bhattacharyya)では、すべての値が厳密に正であり、合計が1である必要があります(確率分布)。任意のベクトルを使用すると、InfinityまたはNaNが生成される可能性があり、ツールはこれを計算エラーとして扱います。
  • 非常に大きなベクトル(数千の次元)はサポートされていますが、選択されたメソッドに応じて短い遅延が発生する可能性があります。