Detector de Escrita
Detecção automática de sistemas de escrita (cirílico, latino, árabe, CJK, etc.) e identificação de texto multi-script.
Entrada
Saída
| Script | Caracteres | Porcentagem | Exemplos |
|---|---|---|---|
| No data available | |||
Leia-me
Descrição da ferramenta
O Detector de Script é uma ferramenta poderosa que identifica e analisa automaticamente os sistemas de escrita (scripts) usados em qualquer texto. Este identificador abrangente de conjunto de caracteres pode detectar mais de 25 sistemas de escrita diferentes incluindo latino, cirílico, árabe, hebraico, CJK (chinês, japonês, coreano), devanágari, grego, tailandês, georgiano, armênio e muitos mais. Seja você precisando de um detector cirílico ou querendo identificar conjuntos de caracteres de qualquer idioma, a ferramenta fornece estatísticas detalhadas sobre a distribuição de caracteres em diferentes scripts, tornando-a inestimável para análise linguística, moderação de conteúdo e processamento de texto.
Recursos
- Detecção de múltiplos scripts: Identifica 25+ sistemas de escrita incluindo latino, cirílico, árabe, hebraico, CJK e vários scripts índicos
- Alerta de script misto: Detecta automaticamente quando o texto contém múltiplos sistemas de escrita
- Estatísticas detalhadas: Mostra contagem de caracteres e distribuição percentual para cada script detectado
Scripts suportados
A ferramenta pode identificar conjuntos de caracteres e detectar os seguintes sistemas de escrita:
- Latino (incluindo variantes estendidas)
- Cirílico (russo, ucraniano, búlgaro, sérvio, etc.) - Suporte completo de detector cirílico
- Árabe (incluindo suplementos e extensões árabes)
- Hebraico
- Grego (incluindo grego estendido)
- Ideogramas unificados CJK (chinês, kanji japonês)
- Hangul (coreano)
- Hiragana (japonês)
- Katakana (japonês)
- Devanágari (hindi, sânscrito, marati, nepalês)
- Bengali
- Tâmil
- Telugu
- Gujarati
- Kannada
- Malaiala
- Cingalês
- Tailandês
- Laociano
- Myanmar (birmanês)
- Khmer (cambojano)
- Tibetano
- Georgiano
- Armênio
- Etíope (amárico, tigrínia)
O que é um sistema de escrita?
Um sistema de escrita (ou script) é um conjunto de símbolos usados para representar texto em um idioma ou grupo de idiomas específico. Diferentes culturas e comunidades linguísticas desenvolveram sistemas de escrita únicos ao longo dos milênios. Alguns idiomas usam o mesmo script (por exemplo, muitos idiomas europeus usam latino), enquanto outros têm seus próprios scripts distintos (por exemplo, árabe, chinês, cirílico).
Entender a composição de script do texto e ser capaz de identificar conjuntos de caracteres é crucial para:
- Renderização e exibição adequadas
- Processamento e normalização de texto
- Identificação de idioma usando detecção de script e conjunto de caracteres
- Análise de segurança (detectando ataques de homógrafo com detectores cirílicos ou outros detectores de script)
- Internacionalização e localização