Mis on Unicode?

Unicode on universaalne märgistikodeeringu standard, mis määrab igale kirjutatud keele kasutatavale tähemärgile unikaalse numbri (nimetatud koodpunktiks). Erinevalt vanematest kodeeringusüsteemitest nagu ASCII, mis toetas ainult 128 tähemärki, suudab Unicode esindada üle 1,1 miljoni tähemärgi — sealhulgas kõigi tähestike tähed, sümbolid, emotikonid ja erimärgid. See teeb sellest hädavajaliku tarkvara loomiseks, mis töötab erinevates keeltes ja platvormidel.

Unicode'i koodpunkt kirjutatakse tavaliselt kui U+ ja sellele järgneb kuueteistkümnendsüsteemi arv. Näiteks täht "A" on U+0041 ja emotikon 😀 on U+1F600. Erinevad programmeerimiskeeled ja süsteemid esindavad neid koodpunkte erinevates vormingutes, mistõttu on vormingute vaheline teisendus sageli vajalik.

Tööriista kirjeldus

See tööriist teisendab teksti tavaliste tähemärkide ja erinevate Unicode'i esitusvormide vahel. See toetab kahepoolset teisendust kuue erineva vormingu vahel: tavaline tekst, Unicode'i koodpunktid, JavaScript'i põgenemisjärjekorrad, HTML-i numbrilised üksused, kuueteistkümnendsed väärtused ja kümnendsed väärtused. Lihtsalt vali sisendi ja väljundi vormingud ning teisendus toimub koheselt.

Näited

Sisend Vorming Väljund
Hello Koodpunktid U+0048 U+0065 U+006C U+006C U+006F
Hello JS Põgenemine \u0048\u0065\u006C\u006C\u006F
Hello HTML üksused Hello
Hello Kuueteistkümnendsed 0048 0065 006C 006C 006F
Hello Kümnendsed 72 101 108 108 111
😀 Koodpunktid U+1F600
Привет JS Põgenemine \u041F\u0440\u0438\u0432\u0435\u0442

Funktsioonid

  • Kahepoolne teisendus kõigi kuue Unicode'i vormingu vahel
  • Täielik Unicode'i tugi koos emotikonide ja märkidega, mis on väljaspool Basic Multilingual Plane (BMP)
  • Surrogaadpaaride käsitlemine JavaScript'i põgenemisjärjekordade jaoks, mis sisaldavad tähemärke üle U+FFFF
  • Reaalajas teisendus sisestamisel, kohese tulemustega
  • Kopeerimise ja vahetamise funktsioon kiireks teisenduste pööramiseks

Kasutusalad

  • Veebiarendus: Teisenda erimärgid HTML üksusteks, et neid veebilehtedel turvaliselt kuvada
  • JavaScript/JSON kodeerimine: Põgeneda mitte-ASCII tähemärgid JavaScript'i stringide või JSON-failide kasutamiseks
  • Kodeeringu vigu silumine: Uurida tähemärkide täpseid koodpunkte, et diagnoosida teksti kodeerimisprobleeme
  • Platvormidevaheline tekstitöötlus: Teisenda tähemärgid numbrilistesse vormingutesse süsteemidele, mis ei toeta Unicode'i natiivset
  • Unicode'i õppimine: Uurida, kuidas erinevad tähemärgid on esindatud erinevates kodeeringuvormingutes