Hva er homoglyphs?

Homoglyphs er tegn fra forskjellige skriftsystemer som ser identiske eller nesten identiske ut som hverandre. For eksempel ser det kyrilske tegnet "А" (U+0410) visuelt uatskillelig ut fra det latinske tegnet "A" (U+0041), til tross for at de er helt forskjellige Unicode-tegn. Denne visuelle likheten eksisterer fordi mange kyrilliske tegn historisk sett ble utledet fra greske og latinske alfabeter.

Hvorfor er kyrillisk-latinsk homoglyphs viktig?

Den visuelle likheten mellom kyrilliske og latinske tegn skaper både utfordringer og muligheter. Innen informasjonssikkerhet utnyttes homoglyphs i phishing-angrep der skadelige URL-er bruker kyrilliske lookalikes for å utgi seg for å være legitime domener. I tekstbehandling kan innhold med blandet skript forårsake problemer med sortering, søking og indeksering. Å forstå og oppdage disse tegnerstatningene er avgjørende for sikkerhetsforskere, innholdsmoderatorere og utviklere som arbeider med flerspråklig tekst.

Hvordan fungerer homoglyph-konvertering?

Homoglyph-konvertering erstatter tegn fra ett skript med deres visuelt lignende motparter fra et annet skript. Dette verktøyet kartlegger kyrilliske tegn til deres latinske ekvivalenter basert på visuell utseende snarere enn fonetisk verdi. For eksempel konverteres det kyrilliske "Р" (som høres ut som "R") til det latinske "P" fordi de ser like ut, ikke fordi de representerer den samme lyden.

Verktøybeskrivelse

Denne konvertereren fra kyrillisk til latinsk homoglyph transformerer tekst som inneholder kyrilliske tegn til visuelt lignende latinske ekvivalenter. Verktøyet bruker en omfattende kartleggingsdatabase som dekker flere kyrillisk-baserte alfabeter, inkludert russisk, ukrainsk, hviterussisk, serbisk, makedonsk, bulgarsk, kasakhisk, kirgisisk og mongolsk skrift. Konverteringen prioriterer visuell likhet, slik at utdata fremstår så nær originalen som mulig, samtidig som det bare bruker latinske tegn.

Eksempler

Kyrillisk inndata Latinsk utdata
самый camblu
ответственность oTBeTcTBeHHocTb
непосредственно HenocpegcTBeHHo
событие co6blTue

Funksjoner

  • Konverterer alle kyrilliske alfabeter, inkludert russisk, ukrainsk, hviterussisk, serbisk, makedonsk og sentralasiatiske varianter
  • Bruker perfekte homoglyphs der tegn er visuelt identiske (А→A, С→C, О→O)
  • Bruker nære tilnærminger for tegn med høy visuell likhet
  • Bevarer ikke-kyrilliske tegn, inkludert latinske bokstaver, tall og tegnsetting
  • Støtter utvidet kyrillisk, inkludert historiske og sjeldne tegn

Bruksområder

  • Analysere potensielt skadelig tekst for homoglyph-baserte spoofing-forsøk
  • Normalisere innhold med blandet skript for konsistent tekstbehandling
  • Oppdage injeksjon av kyrilliske tegn i brukernavn, URL-er eller domenenavn
  • Konvertere kyrillisk tekst for systemer som bare støtter latinske tegn
  • Forsknings- og utdanningsformål innen lingvistikk og typografi

Støttede tegnett

Perfekte homoglyphs (visuelt identiske):

  • Store bokstaver: А→A, В→B, С→C, Е→E, Н→H, І→I, Ј→J, К→K, М→M, О→O, Р→P, Ѕ→S, Т→T, Х→X, У→Y
  • Små bokstaver: а→a, с→c, е→e, і→i, ј→j, о→o, р→p, ѕ→s, х→x, у→y

Nære homoglyphs (høy visuell likhet):

  • Med diakritiske tegn: Ё→Ë, Ї→Ï, ё→ë, ї→ï
  • Kasakhisk/Mongolsk: Ү→Y, Қ→K, Ң→H, Ғ→F

Tilnærmede homoglyphs (moderat likhet):

  • Basert på form: Б→6, Г→r, З→3, Ч→4, Ш→W
  • Sammensatte: Ы→bl, Ю→io, Я→ᴙ

Konverteringsdetaljer

Konvertereren behandler tekst tegn for tegn, og sjekker hvert tegn mot homoglyph-kartleggingstabellene i prioritert rekkefølge:

  1. Perfekte homoglyphs – Eksakte visuelle treff mellom kyrillisk og latinsk
  2. Nære homoglyphs – Tegn med små visuelle forskjeller, ofte ved bruk av diakritiske tegn
  3. Tilnærmede homoglyphs – Beste visuelle tilnærming ved bruk av tilgjengelige tegn
  4. Gjennomgang – Tegn som ikke finnes i kartleggingene, beholdes uendret

Denne lagdelte tilnærmingen sikrer maksimal visuell nøyaktighet, samtidig som den gir reserveløsninger for alle kyrilliske tegn.