ما هي تشابه المتجهات؟

يقيس تشابه المتجهات مدى تشابه متجهين في فضاء متعدد الأبعاد. المتجهات عبارة عن قوائم مرتبة من الأرقام تمثل نقاط البيانات — وتظهر في تضمينات التعلم الآلي وأنظمة التوصيات ومعالجة اللغات الطبيعية والتعرف على الصور والحوسبة العلمية. مقارنة متجهين تخبرك بمدى قرب أو ارتباط نقاط البيانات الأساسية.

يتم استخدام مفهومين أساسيين:

  • التشابه: درجة تشير إلى مدى تشابه متجهين. عادة ما تعني القيم الأعلى تشابهًا أكثر (على سبيل المثال، تشابه جيب التمام 1 يعني اتجاهًا متطابقًا).
  • المسافة: مقياس لمدى بعد متجهين عن بعضهما. عادة ما تعني القيم الأقل تشابهًا أكثر (على سبيل المثال، المسافة الإقليدية 0 تعني متجهات متطابقة).

وصف الأداة

تحسب هذه الأداة التشابه أو المسافة بين متجهين رقميين باستخدام أكثر من 50 طريقة معروفة من نظرية المعلومات والإحصاء والهندسة. أدخل متجهين، واختر طريقة من علامة التشابه أو المسافة، وتُحسب النتيجة على الفور في متصفحك.

أمثلة

الإدخال

المتجه أ: 1, 2, 3
المتجه ب: 4, 5, 6
الطريقة النتيجة
تشابه جيب التمام 0.9746318461970762
المسافة الإقليدية 5.196152422706632
مسافة مانهاتن 16.5

صيغ الإدخال المقبولة

جميع ما يلي متكافئ:

1, 2, 3
[1, 2, 3]
(1 2 3)
1;2;3

الميزات

  • أكثر من 50 طريقة — اختر من المسافات (الإقليدية، مانهاتن، تشيبيشيف، جيب التمام، Kullback-Leibler، Jensen-Shannon، وغيرها) أو التشابهات (جيب التمام، Jaccard، Dice، Tanimoto، وغيرها)
  • إدخال مرن — يقبل القيم المفصولة بفواصل أو مسافات أو فواصل منقوطة مع أو بدون أقواس
  • نتائج فورية — تعمل جميع الحسابات من جانب العميل بدون إرسال البيانات إلى خادم

الطرق المدعومة

طرق التشابه

الطريقة الوصف
جيب التمام يقيس الزاوية بين متجهين؛ يُستخدم على نطاق واسع في معالجة اللغات الطبيعية وأنظمة التوصيات
Kumar-Hassebrook تشابه معمم يجمع بين Jaccard وجيب التمام
Dice ضعف التقاطع مقسومًا على مجموع عدد العناصر
Tanimoto معامل Jaccard الموسع للمتجهات المستمرة
التقاطع مجموع الحد الأدنى من العناصر
Czekanowski نسبة ضعف مجموع الحد الأدنى إلى المجموع الكلي
Motyka التقاطع مقسومًا على مجموع جميع العناصر
Kulczynski المتوسط التوافقي لنسب تشبه الدقة والاستدعاء
الوتر المربع بناءً على الجذور التربيعية لمنتجات العناصر
Pearson معامل الارتباط الخطي بين المتجهين

طرق المسافة

الطريقة الوصف
الإقليدية المسافة المستقيمة في فضاء n-بعدي
الإقليدية المربعة المسافة الإقليدية بدون الجذر التربيعي
مانهاتن (كتلة المدينة) مجموع الفروقات المطلقة للعناصر
تشيبيشيف أقصى فرق مطلق عبر جميع الأبعاد
كانبيرا مسافة مانهاتن المرجحة الحساسة للقيم القريبة من الصفر
Sørensen مجموع الفروقات المطلقة مقسومًا على مجموع جميع القيم
Gower المتوسط المعياري للفروقات المطلقة
Soergel نسبة الفروقات المطلقة إلى الحد الأقصى للعناصر
Lorentzian مجموع اللوغاريتمات الطبيعية للفروقات المطلقة زائد واحد
Clark مسافة مرجحة باستخدام الفروقات المطلقة على المجاميع
Wave Hedges مجموع الفروقات المطلقة مقسومًا على الحد الأقصى للعناصر
Czekanowski صيغة المسافة لمعامل Czekanowski
Motyka صيغة المسافة لمعامل Motyka
Kulczynski صيغة المسافة لمعامل Kulczynski
Tanimoto صيغة المسافة لمعامل Tanimoto
Ruzicka مكمل تشابه Ruzicka
الناتج الداخلي الناتج النقطي السالب كمقياس مسافة
المتوسط التوافقي مسافة بناءً على المتوسطات التوافقية لأزواج العناصر
Jaccard نسبة المكونات غير المتطابقة
Dice صيغة المسافة لمعامل Dice
الدقة بناءً على الجذر التربيعي لمنتجات العناصر (ذات صلة بـ Bhattacharyya)
Bhattacharyya يقيس التداخل بين توزيعي احتمالية
Hellinger الجذر التربيعي لمسافة Bhattacharyya
Matusita الجذر التربيعي لنصف مجموع الفروقات المربعة للجذور التربيعية
الوتر المربع صيغة المسافة لمعامل الوتر المربع
Pearson صيغة المسافة لمعامل ارتباط Pearson
Neyman تباعد من نوع مربع كاي
المربع مسافة مربع كاي المربعة
التماثل الاحتمالي نسخة متماثلة من تباعد مربع كاي
التباعد مسافة مربعة مرجحة مضاعفة
الإضافة المتماثلة متوسط تباعدات Neyman و Pearson مربع كاي
Kullback-Leibler تباعد نظري المعلومات بين التوزيعات
Jeffreys تباعد Kullback-Leibler المتماثل
تباعد K تباعد غير متماثل بناءً على التوزيع المتوسط
Topsøe ضعف تباعد Jensen-Shannon
Jensen-Shannon نسخة ممهدة ومتماثلة من Kullback-Leibler
فرق Jensen بناءً على عدم المساواة Jensen للدوال المحدبة
Taneja تباعد المتوسط الحسابي الهندسي
Kumar-Johnson بناءً على الفروقات المربعة للقوى الزوجية
التقاطع مكمل تشابه التقاطع
المتوسط (كتلة المدينة + تشيبيشيف) متوسط مسافات مانهاتن وتشيبيشيف

كيفية العمل

تحلل الأداة كل إدخال متجه إلى سلسلة من الأرقام، وتزيل الأقواس الاختيارية، وتقسمها على الفواصل أو المسافات أو الفواصل المنقوطة. ثم تمرر كلا المصفوفتين إلى الدالة المختارة من مكتبة ml-distance، التي تجري الحساب في JavaScript نقي. يجب أن يكون لكلا المتجهين نفس عدد الأبعاد؛ وإلا ستعرض الأداة رسالة خطأ في التحقق.

القيود

  • بعض الطرق (مثل Kullback-Leibler و Bhattacharyya) تتطلب أن تكون جميع القيم موجبة تمامًا ومجموعها يساوي 1 (توزيعات احتمالية). استخدام متجهات عشوائية قد ينتج عنه Infinity أو NaN، والتي تعاملها الأداة كخطأ في الحساب.
  • المتجهات الكبيرة جدًا (آلاف الأبعاد) مدعومة لكن قد تسبب تأخيرًا قصيرًا اعتمادًا على الطريقة المختارة.