Что такое символы конца строки?

Символ конца строки (также называемый переводом строки или последовательностью конца строки) — это специальный символ или пара символов, которые обозначают, где заканчивается одна строка текста и начинается следующая. Существуют три различных соглашения в разных операционных системах: LF (\n, один символ перевода строки), CRLF (\r\n, возврат каретки, за которым следует перевод строки), и CR (\r, отдельный возврат каретки).

Различие берет начало из ранних компьютерных систем. Печатные машины требовали двух физических действий для начала новой строки — возврата каретки в начало (CR) и продвижения бумаги на одну строку (LF). Системы Unix приняли только LF в 1970-х годах, в то время как MS-DOS и позже Windows сохранили полную последовательность CR+LF. Классическая Mac OS (до OS X) использовала только CR, хотя современная macOS следует соглашению Unix с LF.

Смешанные символы конца строки часто встречаются в файлах, которые редактировались на нескольких платформах, передавались между системами или объединялись из разных источников. Они могут вызывать тонкие ошибки в скриптах, инструментах сборки и системах контроля версий.

Описание инструмента

Этот инструмент анализирует текст или файл и определяет, какие типы символов конца строки присутствуют. Он подсчитывает каждый тип отдельно — CRLF, LF и CR — и сообщает общий стиль конца строки (включая информацию о том, содержит ли файл смешанные окончания). Он также предоставляет базовую статистику по строкам: общее количество строк, самую длинную строку, самую короткую строку и среднюю длину строки.

Возможности

  • Определяет все три типа символов конца строки: CRLF (Windows), LF (Unix/macOS) и CR (классический Mac)
  • Идентифицирует смешанные символы конца строки и обозначает доминирующий стиль
  • Принимает как вставленный текст через редактор кода, так и загруженные файлы любого текстового формата
  • Подсчитывает каждый тип символа конца строки независимо без двойного подсчета
  • Сообщает общее количество строк, самую длинную строку, самую короткую строку и среднюю длину строки

Случаи использования

  • Отладка сбоев сборки на разных платформах — скрипты или файлы конфигурации с неожиданными окончаниями CRLF часто ломаются на серверах Unix; используйте этот инструмент для подтверждения символов конца строки перед развертыванием
  • Подготовка к проверке кода — убедитесь, что файл, полученный с машины Windows, использует ожидаемое проектом соглашение LF перед фиксацией
  • Аудит текстовых файлов — быстро проверьте файлы журналов, CSV или экспорты данных, чтобы понять их структуру перед программным анализом

Как это работает

Последовательности CRLF (\r\n) сначала определяются и подсчитываются с помощью регулярного выражения. Найденные пары затем удаляются из строки перед отдельным подсчетом отдельных символов LF (\n) и CR (\r). Это предотвращает подсчет одного \r\n как CR и LF одновременно. Статистика по строкам получается путем разделения исходного текста по всем трем шаблонам конца строки.