Homoglif nedir?

Homoglif, farklı yazı sistemlerinden karakterlerin görsel olarak aynı veya neredeyse aynı görünmesidir. Örneğin, Kiril harfi "А" (U+0410) görsel olarak Latin harfi "A" (U+0041) ile ayırt edilemez, ancak tamamen farklı Unicode karakterleridir. Bu görsel benzerlik, birçok Kiril harfinin tarihsel olarak Yunan ve Latin alfabelerinden türetilmiş olmasından kaynaklanır.

Kiril-Latin homoglifleri neden önemlidir?

Kiril ve Latin karakterleri arasındaki görsel benzerlik hem zorluklar hem de fırsatlar yaratır. Siber güvenlikte, homoglif saldırılarında kötü niyetli URL'ler, meşru alan adlarını taklit etmek için Kiril benzerlerini kullanır. Metin işlemede, karma betik içeriği sıralama, arama ve dizinleme sorunlarına neden olabilir. Bu karakter değişimlerini anlamak ve tespit etmek, güvenlik araştırmacıları, içerik moderatörleri ve çok dilli metinlerle çalışan geliştiriciler için önemlidir.

Homoglyf dönüşümü nasıl çalışır?

Homoglyf dönüşümü, bir yazı sistemindeki karakterleri görsel olarak benzer olduğu diğer yazı sistemindeki karakterlerle değiştirir. Bu araç, Kiril karakterlerini fonetik değer yerine görsel görünüme göre Latin eşdeğerlerine eşler. Örneğin, "R" sesine karşılık gelen Kiril "Р" harfi, aynı görünüme sahip olduğu için Latin "P" harfine dönüştürülür.

Araç açıklaması

Bu Kiril'den Latin homogliflere dönüştürücü, Kiril karakterler içeren metni görsel olarak benzer Latin eşdeğerlerine dönüştürür. Araç, Rus, Ukraynaca, Beyaz Rusça, Sırpça, Makedonca, Bulgarca, Kazakça, Kırgızca ve Moğolca dahil olmak üzere birden fazla Kiril tabanlı alfabeyi kapsayan kapsamlı bir eşleme veritabanı kullanır. Dönüşüm, görsel benzerliğe öncelik verir, böylece çıktı mümkün olduğunca orijinale yakın görünür, ancak yalnızca Latin karakterleri kullanır.

Örnekler

Kiril girişi Latin çıktısı
самый camblu
ответственность oTBeTcTBeHHocTb
непосредственно HenocpegcTBeHHo
событие co6blTue

Özellikler

  • Rus, Ukraynaca, Beyaz Rusça, Sırpça, Makedonca ve Orta Asya varyantları dahil tüm Kiril alfabelerini dönüştürür
  • Karakterler görsel olarak özdeş olduğunda mükemmel homoglif kullanır (А→A, С→C, О→O)
  • Yüksek görsel benzerlik için yakın yaklaşımlar uygular
  • Latin harfleri, sayılar ve noktalama işaretleri dahil olmak üzere Kiril olmayan karakterleri korur
  • Tarihsel ve nadir karakterler dahil genişletilmiş Kiril'i destekler

Kullanım durumları

  • Homoglyf tabanlı sahtekarlık girişimleri için potansiyel olarak kötü amaçlı metni analiz etme
  • Tutarlı metin işleme için karma betik içeriğini normalleştirme
  • Kullanıcı adlarında, URL'lerde veya alan adlarında Kiril karakter enjeksiyonunu tespit etme
  • Yalnızca Latin karakterleri destekleyen sistemler için Kiril metni dönüştürme
  • Dilbilim ve tipografi alanlarında araştırma ve eğitim amaçları

Desteklenen karakter kümeleri

Mükemmel homoglif (görsel olarak özdeş):

  • Büyük harf: А→A, В→B, С→C, Е→E, Н→H, І→I, Ј→J, К→K, М→M, О→O, Р→P, Ѕ→S, Т→T, Х→X, У→Y
  • Küçük harf: а→a, с→c, е→e, і→i, ј→j, о→o, р→p, ѕ→s, х→x, у→y

Yakın homoglif (yüksek görsel benzerlik):

  • Diyakritik işaretli: Ё→Ë, Ї→Ï, ё→ë, ї→ï
  • Kazakça/Moğolca: Ү→Y, Қ→K, Ң→H, Ғ→F

Yaklaşık homoglif (orta derecede benzerlik):

  • Şekle dayalı: Б→6, Г→r, З→3, Ч→4, Ш→W
  • Bileşik: Ы→bl, Ю→io, Я→ᴙ

Dönüşüm ayrıntıları

Dönüştürücü, metni karakter karakter işler, her karakteri öncelik sırasına göre homoglyf eşleme tablolarıyla kontrol eder:

  1. Mükemmel homoglif – Kiril ve Latin arasında tam görsel eşleşmeler
  2. Yakın homoglif – Görsel olarak küçük farklılıkları olan, genellikle diyakritik işaretler kullanan karakterler
  3. Yaklaşık homoglif – Mevcut karakterler kullanılarak en iyi görsel yaklaşım
  4. Geçiş – Eşleşmelerde bulunmayan karakterler değiştirilmeden korunur

Bu katmanlı yaklaşım, görsel sadakati en üst düzeye çıkarırken tüm Kiril karakterleri için alternatifler sağlar.