Описание на инструмента

Script Detector е мощен инструмент, който автоматично идентифицира и анализира писмените системи (скриптове) използвани в произволен текст. Този всеобхватен идентификатор на набори от знаци може да открие над 25 различни писмени системи, включително латиница, кирилица, арабски, иврит, CJK (китайски, японски, корейски), деванагари, гръцки, тайски, грузински, арменски и много други. Независимо дали имате нужда от детектор на кирилица или искате да идентифицирате набори от знаци от всеки език, инструментът предоставя подробна статистика за разпределението на знаците в различни скриптове, което го прави безценен за лингвистичен анализ, модериране на съдържание и обработка на текст.

Функции

  • Многоскриптово откриване: Идентифицира 25+ писмени системи, включително латиница, кирилица, арабски, иврит, CJK и различни индийски скриптове
  • Предупреждение за смесени скриптове: Автоматично открива, когато текстът съдържа множество писмени системи
  • Подробна статистика: Показва брой на знаците и процентно разпределение за всеки открит скрипт

Поддържани скриптове

Инструментът може да идентифицира набори от знаци и да открие следните писмени системи:

  • Латиница (включително разширени варианти)
  • Кирилица (руски, украински, български, сръбски и т.н.) - Пълна поддръжка на детектор на кирилица
  • Арабски (включително арабски допълнения и разширения)
  • Иврит
  • Гръцки (включително разширен гръцки)
  • CJK обединени идеограми (китайски, японски канджи)
  • Хангул (корейски)
  • Хирагана (японски)
  • Катакана (японски)
  • Деванагари (хинди, санскрит, маратхи, непалски)
  • Бенгалски
  • Тамилски
  • Телугу
  • Гуджарати
  • Канада
  • Малаялам
  • Синхала
  • Тайски
  • Лаоски
  • Мианмар (бирмански)
  • Кхмер (камбоджански)
  • Тибетски
  • Грузински
  • Арменски
  • Етиопски (амхарски, тигриня)

Какво е писмена система?

Писмена система (или скрипт) е набор от символи, използвани за представяне на текст в определен език или група от езици. Различни култури и лингвистични общности са разработили уникални писмени системи през хилядолетията. Някои езици използват един и същ скрипт (напр. много европейски езици използват латиница), докато други имат свои отличителни скриптове (напр. арабски, китайски, кирилица).

Разбирането на скриптовия състав на текста и способността да идентифицирате набори от знаци е решаващо за:

  • Правилно визуализиране и показване
  • Обработка и нормализиране на текст
  • Идентификация на език, използвайки откриване на скрипт и набор от знаци
  • Анализ на сигурността (откриване на хомографски атаки с детектори на кирилица или други скриптове)
  • Интернационализация и локализация