Tööriista kirjeldus

Script Detector on võimas tööriist, mis tuvastab ja analüüsib automaatselt tekstis kasutatavaid kirjasüsteeme (skripte). See põhjalik märgistikute tuvastaja suudab avastada üle 25 erineva kirjasüsteemi, sealhulgas ladina, kirillits, araabia, heebrea, CJK (hiina, jaapani, korea), devanagari, kreeka, tai, gruusia, armeenia ja palju muud. Olenemata sellest, kas vajate kirillitside tuvastajat või soovite tuvastada mis tahes keele märgistikuid, pakub tööriist üksikasjalikke statistilisi andmeid märkide jaotuse kohta erinevate skriptide vahel, muutes selle hindamatuks keeleanalüüsi, sisu modereerimise ja tekstitöötluse jaoks.

Funktsioonid

  • Mitme skripti tuvastamine: Tuvastab 25+ kirjasüsteemi, sealhulgas ladina, kirillits, araabia, heebrea, CJK ja erinevad indialikud skriptid
  • Segaskriptide hoiatus: Avasta automaatselt, kui tekst sisaldab mitut kirjasüsteemi
  • Üksikasjalikud statistika: Kuvab iga tuvastatud skripti märkide arvu ja protsentuaalset jaotust

Toetatud skriptid

Tööriist suudab tuvastada märgistikuid ja avastada järgmised kirjasüsteemid:

  • Latin (ka laiendatud variandid)
  • Kirillits (vene, ukraina, bulgaaria, serbia jne) – täielik kirillitside detektori tugi
  • Araabia (ka araabia täiendused ja laiendused)
  • Heebrea
  • Kreeka (ka laiendatud kreeka)
  • CJK Unified Ideographs (hiina, jaapani kanji)
  • Hangul (korea)
  • Hiragana (jaapani)
  • Katakana (jaapani)
  • Devanagari (hindi, sanskrit, marathi, nepali)
  • Bengali
  • Tamil
  • Telugu
  • Gujarati
  • Kannada
  • Malayalam
  • Sinhala
  • Tai
  • Lao
  • Myanmar (birma)
  • Khmer (kambodža)
  • Tiibeti
  • Gruusia
  • Armeenia
  • Ethiopic (amhari, tigrinya)

Mis on kirjasüsteem?

Kirjasüsteem (või skript) on sümbolite kogum, mida kasutatakse teksti esindamiseks kindlas keeles või keelte rühmas. Erinevad kultuurid ja keelekogukonnad on läbi miljonite aastate arendanud unikaalseid kirjasüsteeme. Mõned keeled kasutavad sama skripti (nt paljud Euroopa keeled kasutavad ladina), samas kui teistel on oma eristuvad skriptid (nt araabia, hiina, kirillits).

Kirjasüsteemi koostise mõistmine ja märgistikute tuvastamine on oluline:

  • Õige renderdamise ja kuvamise tagamiseks
  • Tekstitöötluse ja normaliseerimise jaoks
  • Keele tuvastamiseks skripti ja märgistikute alusel
  • Turvalisuse analüüsi (homograafirünnakute avastamine kirillitside või muude skriptide abil)
  • Internatsionaliseerimise ja lokaliseerimise toetamiseks