सिरिलिक से लैटिन होमोग्लिफ कनवर्टर
सिरिलिक पाठ को दृश्य रूप से समान लैटिन/ASCII वर्णों (होमोग्लिफ़) में बदलें
इनपुट
आउटपुट
रीडमी
क्या होमोग्लिफ़्स हैं?
होमोग्लिफ़्स वह वर्ण हैं जो विभिन्न लिपि प्रणालियों से आते हैं लेकिन एक जैसे या लगभग एक जैसे दिखते हैं। उदाहरण के लिए, सिरिलिक वर्ण "А" (U+0410) लैटिन वर्ण "A" (U+0041) के दृश्यात्मक रूप से अवश्य ही अलग है, हालांकि ये पूरी तरह से अलग यूनिकोड वर्ण हैं। यह दृश्यात्मक समानता इसलिए है क्योंकि कई सिरिलिक वर्णों का इतिहास यूनानी और लैटिन वर्णमाला से जुड़ा हुआ है।
सिरिलिक-लैटिन होमोग्लिफ़्स क्यों महत्वपूर्ण हैं?
सिरिलिक और लैटिन वर्णों के बीच दृश्यात्मक समानता चुनौतियों और अवसरों दोनों को पैदा करती है। साइबर सुरक्षा में, होमोग्लिफ़्स फ़िशिंग हमलों में इस्तेमाल किए जाते हैं जहां कुप्रयोजित URL में सिरिलिक समरूप वर्णों का इस्तेमाल वैध डोमेन का नकली रूप बनाने के लिए किया जाता है। पाठ प्रसंस्करण में, मिश्रित लिपि सामग्री वर्गीकरण, खोज और सूचीकरण समस्याएं पैदा कर सकती हैं। बहुभाषिक पाठ के साथ काम करते समय, इन वर्ण प्रतिस्थापनों को समझना और पता लगाना सुरक्षा शोधकर्ताओं, सामग्री मॉडरेटरों और डेवलपर्स के लिए महत्वपूर्ण है।
होमोग्लिफ़ रूपांतरण कैसे काम करता है?
होमोग्लिफ़ रूपांतरण एक लिपि से दूसरी लिपि के दृश्यात्मक रूप से समान वर्णों से वर्णों को प्रतिस्थापित करता है। यह टूल सिरिलिक वर्णों को उनके लैटिन समकक्षों में मैप करता है, जो ध्वनि मूल्य के बजाय दृश्यात्मक रूप से समान होते हैं। उदाहरण के लिए, सिरिलिक "Р" (जो "R" की तरह ध्वनि करता है) लैटिन "P" में परिवर्तित होता है क्योंकि वे एक जैसे दिखते हैं, न कि क्योंकि वे समान ध्वनि का प्रतिनिधित्व करते हैं।
टूल विवरण
यह सिरिलिक से लैटिन होमोग्लिफ़ रूपांतरक सिरिलिक वर्णों वाले पाठ को दृश्यात्मक रूप से समान लैटिन समकक्षों में परिवर्तित करता है। यह टूल रूसी, यूक्रेनी, बेलारूसी, सर्बियाई, मैसेडोनियाई, बुल्गारियाई, कज़ाख, किर्गिज और मंगोलियाई लिपियों सहित कई सिरिलिक-आधारित वर्णमालाओं को कवर करने वाले व्यापक मैपिंग डेटाबेस का उपयोग करता है। रूपांतरण दृश्यात्मक समानता पर ध्यान केंद्रित करता है, जिससे आउटपुट मूल के बहुत करीब दिखता है, लेकिन केवल लैटिन वर्णों का उपयोग करता है।
उदाहरण
| सिरिलिक इनपुट | लैटिन आउटपुट |
|---|---|
| самый | camblu |
| ответственность | oTBeTcTBeHHocTb |
| непосредственно | HenocpegcTBeHHo |
| событие | co6blTue |
सुविधाएं
- रूसी, यूक्रेनी, बेलारूसी, सर्बियाई, मैसेडोनियाई और मध्य एशियाई वेरिएंट सहित सभी सिरिलिक वर्णमालाओं का रूपांतरण करता है
- जहां वर्ण दृश्यात्मक रूप से पूरी तरह से समान होते हैं (А→A, С→C, О→O) वहां पूर्ण होमोग्लिफ़ का उपयोग करता है
- उच्च दृश्यात्मक समानता वाले वर्णों के लिए करीबी अनुमान लगाता है
- लैटिन अक्षर, संख्याएं और विराम चिह्न सहित गैर-सिरिलिक वर्णों को बरकरार रखता है
- ऐतिहासिक और दुर्लभ वर्णों सहित विस्तारित सिरिलिक का समर्थन करता है
उपयोग के मामले
- होमोग्लिफ़ आधारित स्पूफिंग प्रयासों के लिए संभावित हानिकारक पाठ का विश्लेषण करना
- मिश्रित लिपि सामग्री को एक सुसंगत पाठ प्रसंस्करण के लिए सामान्य करना
- उपयोगकर्ता नामों, URL या डोमेन नामों में सिरिलिक वर्ण इंजेक्शन का पता लगाना
- केवल लैटिन वर्णों का समर्थन करने वाली प्रणालियों के लिए सिरिलिक पाठ का रूपांतरण
- भाषाविज्ञान और टाइपोग्राफी में अनुसंधान और शैक्षिक उद्देश्यों के लिए
समर्थित वर्ण सेट
पूर्ण होमोग्लिफ़ (दृश्यात्मक रूप से समान):
- अपरकेस: А→A, В→B, С→C, Е→E, Н→H, І→I, Ј→J, К→K, М→M, О→O, Р→P, Ѕ→S, Т→T, Х→X, У→Y
- लोअरकेस: а→a, с→c, е→e, і→i, ј→j, о→o, р→p, ѕ→s, х→x, у→y
करीबी होमोग्लिफ़ (उच्च दृश्यात्मक समानता):
- डायक्रिटिक्स के साथ: Ё→Ë, Ї→Ï, ё→ë, ї→ï
- कज़ाख/मंगोलियाई: Ү→Y, Қ→K, Ң→H, Ғ→F
अनुमानित होमोग्लिफ़ (मध्यम समानता):
- आकार-आधारित: Б→6, Г→r, З→3, Ч→4, Ш→W
- संयुक्त: Ы→bl, Ю→io, Я→ᴙ
रूपांतरण विवरण
रूपांतरक पाठ को वर्ण-वर्ण जाँचता है, प्राथमिकता क्रम में होमोग्लिफ़ मैपिंग तालिकाओं के खिलाफ प्रत्येक को जाँचता है:
- पूर्ण होमोग्लिफ़ - सिरिलिक और लैटिन के बीच एकदम समान दृश्यात्मक मैच
- करीबी होमोग्लिफ़ - मामूली दृश्यात्मक अंतर वाले वर्ण, अक्सर डायक्रिटिक्स का उपयोग करते हैं
- अनुमानित होमोग्लिफ़ - उपलब्ध वर्णों का सर्वश्रेष्ठ दृश्यात्मक अनुमान
- पास-थ्रू - मैपिंग में नहीं पाए गए वर्णों को बदले बिना बरकरार रखा जाता है
यह स्तरीय दृष्टिकोण अधिकतम दृश्यात्मक वफादारी सुनिश्चित करता है और साथ ही सभी सिरिलिक वर्णों के लिए बैकअप प्रदान करता है।