¿Qué son los homóglifos?

Los homóglifos son caracteres de diferentes sistemas de escritura que se ven idénticos o casi idénticos entre sí. Por ejemplo, la letra cirílica "А" (U+0410) parece visualmente indistinguible de la letra latina "A" (U+0041), a pesar de ser caracteres Unicode completamente diferentes. Esta similitud visual existe porque muchas letras cirílicas se derivaron históricamente de los alfabetos griego y latino.

¿Por qué importan los homóglifos cirílico-latinos?

La similitud visual entre los caracteres cirílicos y latinos crea tanto desafíos como oportunidades. En ciberseguridad, los homóglifos se explotan en ataques de phishing donde las URL maliciosas usan parecidos cirílicos para imitar dominios legítimos. En el procesamiento de texto, el contenido de scripts mixtos puede causar problemas de clasificación, búsqueda e indexación. Comprender y detectar estos reemplazos de caracteres es esencial para investigadores de seguridad, moderadores de contenido y desarrolladores que trabajan con texto multilingüe.

¿Cómo funciona la conversión de homóglifos?

La conversión de homóglifos reemplaza los caracteres de un script con sus homólogos visualmente similares de otro script. Esta herramienta asigna caracteres cirílicos a sus equivalentes latinos en función de la apariencia visual en lugar del valor fonético. Por ejemplo, el cirílico "Р" (que suena como "R") se convierte en el latino "P" porque se ven iguales, no porque representen el mismo sonido.

Descripción de la herramienta

Este convertidor de homóglifos de cirílico a latín transforma el texto que contiene caracteres cirílicos en equivalentes latinos visualmente similares. La herramienta usa una base de datos de asignación completa que cubre múltiples alfabetos basados en el cirílico, incluidos los scripts ruso, ucraniano, bielorruso, serbio, macedonio, búlgaro, kazajo, kirguís y mongol. La conversión prioriza la similitud visual, haciendo que la salida parezca lo más cercana posible al original, pero usando solo caracteres latinos.

Ejemplos

Entrada cirílica Salida latina
самый camblu
ответственность oTBeTcTBeHHocTb
непосредственно HenocpegcTBeHHo
событие co6blTue

Características

  • Convierte todos los alfabetos cirílicos, incluidos los rusos, ucranianos, bielorrusos, serbios, macedonios y variantes de Asia Central
  • Usa homóglifos perfectos donde los caracteres son visualmente idénticos (А→A, С→C, О→O)
  • Aplica aproximaciones cercanas para caracteres con alta similitud visual
  • Conserva los caracteres no cirílicos, incluidas las letras latinas, los números y la puntuación
  • Admite el cirílico extendido, incluidos los caracteres históricos y raros

Casos de uso

  • Analizar texto potencialmente malicioso en busca de intentos de suplantación basados en homóglifos
  • Normalizar contenido de scripts mixtos para un procesamiento de texto coherente
  • Detectar la inyección de caracteres cirílicos en nombres de usuario, URL o nombres de dominio
  • Convertir texto cirílico para sistemas que solo admiten caracteres latinos
  • Fines de investigación y educativos en lingüística y tipografía

Conjuntos de caracteres compatibles

Homóglifos perfectos (visualmente idénticos):

  • Mayúsculas: А→A, В→B, С→C, Е→E, Н→H, І→I, Ј→J, К→K, М→M, О→O, Р→P, Ѕ→S, Т→T, Х→X, У→Y
  • Minúsculas: а→a, с→c, е→e, і→i, ј→j, о→o, р→p, ѕ→s, х→x, у→y

Homóglifos cercanos (alta similitud visual):

  • Con diacríticos: Ё→Ë, Ї→Ï, ё→ë, ї→ï
  • Kazajo/Mongol: Ү→Y, Қ→K, Ң→H, Ғ→F

Homóglifos aproximados (similitud moderada):

  • Basados en la forma: Б→6, Г→r, З→3, Ч→4, Ш→W
  • Compuestos: Ы→bl, Ю→io, Я→ᴙ

Detalles de la conversión

El convertidor procesa el texto carácter por carácter, verificando cada uno contra las tablas de asignación de homóglifos en orden de prioridad:

  1. Homóglifos perfectos – Coincidencias visuales exactas entre cirílico y latino
  2. Homóglifos cercanos – Caracteres con diferencias visuales menores, a menudo usando diacríticos
  3. Homóglifos aproximados – Mejor aproximación visual utilizando los caracteres disponibles
  4. Paso a través – Los caracteres que no se encuentran en las asignaciones se conservan sin cambios

Este enfoque por capas asegura la máxima fidelidad visual al tiempo que proporciona soluciones alternativas para todos los caracteres cirílicos.