Araç Açıklaması

Script Detector, herhangi bir metinde kullanılan yazı sistemlerini (scriptleri) otomatik olarak tanımlayan ve analiz eden güçlü bir araçtır. Bu kapsamlı karakter seti tanımlayıcı, Latin, Kiril, Arapça, İbranice, CJK (Çince, Japonca, Korece), Devanagari, Yunanca, Tay, Gürcü, Ermenice ve daha birçok dahil olmak üzere 25'ten fazla farklı yazı sistemini tespit edebilir. İster bir Kiril dedektörüne ihtiyacınız olsun, ister herhangi bir dilden karakter setlerini tanımlamak isteyin, araç farklı scriptler arasındaki karakter dağılımı hakkında ayrıntılı istatistikler sunar ve bu da dilbilimsel analiz, içerik denetimi ve metin işleme için vazgeçilmez kılar.

Özellikler

  • Çoklu Yazı Sistemi Algılama: Latin, Kiril, Arapça, İbranice, CJK ve çeşitli Hint scriptleri dahil 25'ten fazla yazı sistemini tanımlar
  • Karışık Yazı Sistemi Uyarısı: Metin birden fazla yazı sistemi içerdiğinde otomatik olarak algılar
  • Ayrıntılı İstatistikler: Her tespit edilen script için karakter sayısını ve yüzde dağılımını gösterir
  • Karakter Örnekleri: Her tespit edilen yazı sisteminden örnek karakterleri gösterir
  • Gerçek Zamanlı Analiz: Yazarken veya metin yapıştırırken anlık tespit
  • Unicode Aralık Desteği: Doğru tespit için kapsamlı Unicode aralıklarını kapsar
  • Yüzde Dağılımı: Script dağılımının görsel yüzde temsili

Kullanım Durumları

  • İçerik Denetimi: Potansiyel şüpheli karışık script içeriğini tanımla (ör. homograf saldırıları)
  • Kiril Algılama: Kiril dedektörünü kullanarak Rusça, Ukraynaca, Bulgarca ve diğer Kiril temelli metinleri tanımla
  • Karakter Seti Tanımlama: Bilinmeyen veya çok dilli belgelerde karakter setlerini hızlıca tanımla
  • Dilbilimsel Analiz: Çok dilli belgeleri ve bileşenlerini analiz et
  • Veri Kalitesi: Metin içeriğinin beklenen yazı sistemleri ve karakter setleriyle eşleştiğini doğrula
  • Metin İşleme: Tespit edilen scriptlere göre metni çeviri veya analiz öncesi ön işleme tabi tut
  • Güvenlik Analizi: Farklı scriptlerden görsel olarak benzer karakterler kullanarak yapılan sahtekarlık girişimlerini tespit et
  • Dil Tespiti: Tam dil tanımlamasından önce önceden script tespiti
  • Akademik Araştırma: Çok dilli korpusalarda script kullanım kalıplarını incele
  • Uluslararasılaştırma Testi: Uygulamaların çeşitli yazı sistemlerini doğru şekilde işlediğini doğrula

Desteklenen Yazı Sistemleri

Bu araç karakter setlerini tanımlayabilir ve aşağıdaki yazı sistemlerini tespit edebilir:

  • Latin (genişletilmiş varyantlar dahil)
  • Kiril (Rusça, Ukraynaca, Bulgarca, Sırpça vb.) - Tam Kiril dedektör desteği
  • Arapça (Arapça ekleri ve uzantıları dahil)
  • İbranice
  • Yunanca (genişletilmiş Yunanca dahil)
  • CJK Birleşik Ideogramlar (Çince, Japonca Kanji)
  • Hangul (Korece)
  • Hiragana (Japonca)
  • Katakana (Japonca)
  • Devanagari (Hintçe, Sanskritçe, Marathi, Nepali)
  • Bengali
  • Tamil
  • Telugu
  • Gujarati
  • Kannada
  • Malayalam
  • Sinhala
  • Thai
  • Lao
  • Myanmar (Birmanya)
  • Khmer (Kamboçya)
  • Tibetçe
  • Gürcüce
  • Ermenice
  • Etiyopik (Amharca, Tigrinya)

Yazı Sistemi Nedir?

Yazı sistemi (veya script), belirli bir dil ya da dil grubundaki metni temsil etmek için kullanılan sembollerin bütünüdür. Farklı kültürler ve dil toplulukları binlerce yıl boyunca benzersiz yazı sistemleri geliştirmiştir. Bazı diller aynı scripti kullanır (ör. birçok Avrupa dili Latin kullanır), diğerleri ise kendine özgü scriptlere sahiptir (ör. Arapça, Çince, Kiril).

Metnin script bileşimini anlamak ve karakter setlerini tanımlayabilmek şu amaçlar için kritiktir:

  • Doğru renderleme ve görüntüleme
  • Metin işleme ve normalleştirme
  • Script ve karakter seti tespitiyle dil tanımlama
  • Güvenlik analizi (Kiril veya diğer script dedektörleriyle homograf saldırılarını tespit etme)
  • Uluslararasılaştırma ve yerelleştirme