Vad är homoglyfter?

Homoglyfter är tecken från olika skriftsystem som ser identiska eller nästan identiska ut som varandra. Till exempel ser den kyrilliska bokstaven "А" (U+0410) visuellt oåtskiljbar ut från den latinska bokstaven "A" (U+0041), trots att de är helt olika Unicode-tecken. Denna visuella likhet finns eftersom många kyrilliska bokstäver historiskt härstammar från grekiska och latinska alfabet.

Varför är kyrillisk-latinsk homoglyfter viktiga?

Den visuella likheten mellan kyrilliska och latinska tecken skapar både utmaningar och möjligheter. Inom cybersäkerhet utnyttjas homoglyfter i phishingattacker där skadliga URL:er använder kyrilliska liknande tecken för att utge sig för att vara legitima domäner. Vid textbearbetning kan innehåll med blandade skript orsaka problem vid sortering, sökning och indexering. Att förstå och upptäcka dessa teckenbyte är avgörande för säkerhetsforskare, innehållsmoderatorrer och utvecklare som arbetar med flerspråkig text.

Hur fungerar homoglyf-konvertering?

Homoglyf-konvertering ersätter tecken från ett skript med deras visuellt lika motsvarigheter från ett annat skript. Detta verktyg mappar kyrilliska tecken till deras latinska motsvarigheter baserat på utseende snarare än fonetiskt värde. Till exempel konverteras den kyrilliska "Р" (som låter som "R") till den latinska "P" eftersom de ser lika ut, inte för att de representerar samma ljud.

Verktygets beskrivning

Detta verktyg för konvertering från kyrilliska till latinska homoglyfter omvandlar text som innehåller kyrilliska tecken till visuellt lika latinska motsvarigheter. Verktyget använder en omfattande mappningsdatabas som täcker flera kyrilliska alfabet inklusive ryska, ukrainska, vitryska, serbiska, makedonska, bulgariska, kazakiska, kirgiziska och mongoliska skript. Konverteringen prioriterar visuell likhet, vilket gör att utdata ser så lika originalet som möjligt samtidigt som endast latinska tecken används.

Exempel

Kyrillisk input Latinsk output
самый camblu
ответственность oTBeTcTBeHHocTb
непосредственно HenocpegcTBeHHo
событие co6blTue

Funktioner

  • Konverterar alla kyrilliska alfabet inklusive ryska, ukrainska, vitryska, serbiska, makedonska och centralasiatiska varianter
  • Använder perfekta homoglyfter där tecken är visuellt identiska (А→A, С→C, О→O)
  • Tillämpar nära approximationer för tecken med hög visuell likhet
  • Bevarar icke-kyrilliska tecken inklusive latinska bokstäver, siffror och skiljetecken
  • Stöder utökad kyrilliska inklusive historiska och sällsynta tecken

Användningsområden

  • Analysera potentiellt skadlig text för homoglyf-baserade försök till förfalskning
  • Normalisera innehåll med blandade skript för konsekvent textbearbetning
  • Upptäcka injektion av kyrilliska tecken i användarnamn, URL:er eller domännamn
  • Konvertera kyrillisk text för system som endast stöder latinska tecken
  • Forskning och utbildningsändamål inom lingvistik och typografi

Teckenuppsättningar som stöds

Perfekta homoglyfter (visuellt identiska):

  • Versaler: А→A, В→B, С→C, Е→E, Н→H, І→I, Ј→J, К→K, М→M, О→O, Р→P, Ѕ→S, Т→T, Х→X, У→Y
  • Gemener: а→a, с→c, е→e, і→i, ј→j, о→o, р→p, ѕ→s, х→x, у→y

Nära homoglyfter (hög visuell likhet):

  • Med diakritiska tecken: Ё→Ë, Ї→Ï, ё→ë, ї→ï
  • Kazakiska/Mongoliska: Ү→Y, Қ→K, Ң→H, Ғ→F

Ungefärliga homoglyfter (måttlig likhet):

  • Formbaserade: Б→6, Г→r, З→3, Ч→4, Ш→W
  • Sammansatta: Ы→bl, Ю→io, Я→ᴙ

Konverteringsdetaljer

Konverteraren bearbetar text tecken för tecken och kontrollerar varje tecken mot homoglyf-mappningstabellerna i prioritetsordning:

  1. Perfekta homoglyfter – Exakta visuella matchningar mellan kyrilliska och latinska
  2. Nära homoglyfter – Tecken med små visuella skillnader, ofta med diakritiska tecken
  3. Ungefärliga homoglyfter – Bästa visuella approximation med tillgängliga tecken
  4. Genomsläpp – Tecken som inte hittas i mappningarna bevaras oförändrade

Detta skiktade tillvägagångssätt säkerställer maximal visuell trohet samtidigt som det ger reservalternativ för alla kyrilliska tecken.