Skriptdetektor
Autodetektera skriftsystem (kyrilliska, latinska, arabiska, CJK osv.) och identifiera blandad skripttext.
Inmatning
Utdata
| Skript | Tecken | Procent | Exempel |
|---|---|---|---|
| No data available | |||
Readme
Verktygsbeskrivning
Script Detector är ett kraftfullt verktyg som automatiskt identifierar och analyserar de skriftsystem (script) som används i vilken text som helst. Denna omfattande teckenuppsättningsidentifierare kan upptäcka över 25 olika skriftsystem inklusive Latin, Cyrillic, Arabiska, Hebreiska, CJK (Kinesiska, Japanska, Koreanska), Devanagari, Grekiska, Thai, Georgiska, Armeniska och många fler. Oavsett om du behöver en Cyrillic‑detektor eller vill identifiera teckenuppsättningar från vilket språk som helst, så erbjuder verktyget detaljerad statistik om fördelningen av tecken över olika skript, vilket gör det ovärderligt för språklig analys, innehållsmoderering och textbehandling.
Funktioner
- Multi‑Skriptdetektering: Identifierar 25+ skriftsystem inklusive Latin, Cyrillic, Arabiska, Hebreiska, CJK och olika indiska skript
- Varning för blandade skript: Detekterar automatiskt när text innehåller flera skriftsystem
- Detaljerad statistik: Visar teckenantal och procentuell fördelning för varje upptäckt skript
- Teckenexempel: Visar exempeltecken från varje upptäckt skriftsystem
- Analyser i realtid: Omedelbar detektering när du skriver eller klistrar in text
- Stöd för Unicode‑intervall: Täcker omfattande Unicode‑intervall för exakt detektering
- Procentuell fördelning: Visuell procentuell representation av skriptfördelning
Användningsområden
- Innehållsmoderering: Identifiera potentiellt misstänkt blandat skriptinnehåll (t.ex. homografattacker)
- Cyrillisk detektering: Använd Cyrillic‑detektorn för att identifiera rysk, ukrainsk, bulgarisk och annan cyrillisk text
- Identifiering av teckenuppsättningar: Snabbt identifiera teckenuppsättningar i okända eller blandade språkdokument
- Språklig analys: Analysera flerspråkiga dokument och deras sammansättning
- Datakvalitet: Verifiera att textinnehållet matchar förväntade skriftsystem och teckenuppsättningar
- Textbehandling: Förprocessa text baserat på upptäckta skript innan översättning eller analys
- Säkerhetsanalys: Upptäck spoofing‑försök med visuellt liknande tecken från olika skript
- Språkdetektion: Förhandsdetektering av skript innan fullständig språkidentifiering
- Akademisk forskning: Studera skriptanvändningsmönster i flerspråkiga korpusar
- Internationaliseringstest: Verifiera att applikationer hanterar olika skriftsystem korrekt
Stödda skript
Verktyget kan identifiera teckenuppsättningar och upptäcka följande skriftsystem:
- Latin (inklusive utökade varianter)
- Cyrillic (ryska, ukrainska, bulgariska, serbiska osv.) – Fullständigt stöd för Cyrillic‑detektor
- Arabic (inklusive arabiska tillägg och utökningar)
- Hebrew
- Greek (inklusive utökad grekiska)
- CJK Unified Ideographs (kinesiska, japanska Kanji)
- Hangul (koreanska)
- Hiragana (japanska)
- Katakana (japanska)
- Devanagari (hindi, sanskrit, marathi, nepali)
- Bengali
- Tamil
- Telugu
- Gujarati
- Kannada
- Malayalam
- Sinhala
- Thai
- Lao
- Myanmar (burmesiska)
- Khmer (kambodjanska)
- Tibetan
- Georgian
- Armenian
- Ethiopic (amhariska, tigrinska)
Vad är ett skriftsystem?
Ett skriftsystem (eller script) är en uppsättning symboler som används för att representera text i ett specifikt språk eller en grupp av språk. Olika kulturer och språkgemenskaper har utvecklat unika skriftsystem under årtusenden. Vissa språk använder samma skript (t.ex. många europeiska språk använder Latin), medan andra har egna distinkta skript (t.ex. Arabiska, Kinesiska, Cyrillic).
Att förstå skriptkompositionen i en text och kunna identifiera teckenuppsättningar är avgörande för:
- Korrekt rendering och visning
- Textbehandling och normalisering
- Språkidentifiering med hjälp av skript‑ och teckenuppsättningsdetektering
- Säkerhetsanalys (upptäckt av homografattacker med Cyrillic eller andra skriptdetektorer)
- Internationalisering och lokalisering