Анализатор разрывов строк
Анализируйте окончания строк в тексте или файлах. Определяйте типы разрывов CRLF, LF и CR, подсчитывайте количество вхождений и просматривайте статистику строк, включая общее количество строк, самую длинную, самую короткую и среднюю длину строки.
Ввод
Вывод
Документация
Что такое символы конца строки?
Символ конца строки (также называемый переводом строки или последовательностью конца строки) — это специальный символ или пара символов, которые обозначают, где заканчивается одна строка текста и начинается следующая. Существуют три различных соглашения в разных операционных системах: LF (\n, один символ перевода строки), CRLF (\r\n, возврат каретки, за которым следует перевод строки), и CR (\r, отдельный возврат каретки).
Различие берет начало из ранних компьютерных систем. Печатные машины требовали двух физических действий для начала новой строки — возврата каретки в начало (CR) и продвижения бумаги на одну строку (LF). Системы Unix приняли только LF в 1970-х годах, в то время как MS-DOS и позже Windows сохранили полную последовательность CR+LF. Классическая Mac OS (до OS X) использовала только CR, хотя современная macOS следует соглашению Unix с LF.
Смешанные символы конца строки часто встречаются в файлах, которые редактировались на нескольких платформах, передавались между системами или объединялись из разных источников. Они могут вызывать тонкие ошибки в скриптах, инструментах сборки и системах контроля версий.
Описание инструмента
Этот инструмент анализирует текст или файл и определяет, какие типы символов конца строки присутствуют. Он подсчитывает каждый тип отдельно — CRLF, LF и CR — и сообщает общий стиль конца строки (включая информацию о том, содержит ли файл смешанные окончания). Он также предоставляет базовую статистику по строкам: общее количество строк, самую длинную строку, самую короткую строку и среднюю длину строки.
Возможности
- Определяет все три типа символов конца строки: CRLF (Windows), LF (Unix/macOS) и CR (классический Mac)
- Идентифицирует смешанные символы конца строки и обозначает доминирующий стиль
- Принимает как вставленный текст через редактор кода, так и загруженные файлы любого текстового формата
- Подсчитывает каждый тип символа конца строки независимо без двойного подсчета
- Сообщает общее количество строк, самую длинную строку, самую короткую строку и среднюю длину строки
Случаи использования
- Отладка сбоев сборки на разных платформах — скрипты или файлы конфигурации с неожиданными окончаниями CRLF часто ломаются на серверах Unix; используйте этот инструмент для подтверждения символов конца строки перед развертыванием
- Подготовка к проверке кода — убедитесь, что файл, полученный с машины Windows, использует ожидаемое проектом соглашение LF перед фиксацией
- Аудит текстовых файлов — быстро проверьте файлы журналов, CSV или экспорты данных, чтобы понять их структуру перед программным анализом
Как это работает
Последовательности CRLF (\r\n) сначала определяются и подсчитываются с помощью регулярного выражения. Найденные пары затем удаляются из строки перед отдельным подсчетом отдельных символов LF (\n) и CR (\r). Это предотвращает подсчет одного \r\n как CR и LF одновременно. Статистика по строкам получается путем разделения исходного текста по всем трем шаблонам конца строки.