Текстовый файл


Текстовый файл (иногда пишется как текстовый файл ; старое альтернативное название — плоский файл ) — это своего рода компьютерный файл , структурированный как последовательность строк электронного текста . Текстовый файл хранится как данные в файловой системе компьютера . В таких операционных системах, как CP/M и MS-DOS , где операционная система не отслеживает размер файла в байтах, конец текстового файла обозначается размещением одного или нескольких специальных символов, известных как конец файла. -файловый маркер, как отступ после последней строки в текстовом файле. В современных операционных системах, таких какMicrosoft Windows , и Unix-подобных систем, текстовые файлы не содержат каких - либо специальных EOF характер, так как файловые системы на этих операционных системах отслеживать размер файла в байтах. Большинство текстовых файлов , нужно иметь конец-строки разделители , которые сделаны в несколько различных способов , в зависимости от операционной системы. Некоторые операционные системы с рекордными ориентированным файловыми системами не могут использовать новые разделители строк и в первую очередь будут хранить текстовые файлы с линиями разделены , как фиксированная или переменной длиной запись.

На родовом уровне описания, есть два вида компьютерных файлов: текстовые файлы и бинарные файлы . [1]

Из - за их простоту, текстовые файлы , которые обычно используются для хранения информации. Они избегают некоторых из проблем , с которыми сталкиваются и с другими форматами файлов, таких как порядок байтов , заполняющих байтов, или различия в количестве байтов в машинном слове . Кроме того, когда повреждение данных происходит в текстовом файле, часто бывает проще восстановить и продолжить обработку оставшихся содержимого. Недостаток текстовых файлов является то , что они , как правило , имеют низкую энтропию , а это означает , что информация занимает больше места , чем это необходимо.

Простой текстовый файл не может нуждаться в каких - либо дополнительных метаданных (кроме знания своего набора символов ) , чтобы помочь читателю в интерпретации. Текстовый файл не может содержать никаких данных вообще, что является случаем нулевого байта файла .

Набор символов ASCII является наиболее распространенным совместимым подмножеством наборов символов для текстовых файлов на английском языке и обычно считается форматом файла по умолчанию во многих ситуациях. Он охватывает американский вариант английского языка, но для знаков британского фунта стерлингов , знака евро или символов, используемых вне английского языка, необходимо использовать более широкий набор символов. Во многих системах это выбирается на основе настройки локали по умолчанию на компьютере, на котором она читается. До UTF-8 это были традиционно однобайтовые кодировки (например, от ISO-8859-1 до ISO-8859-16 ) для европейских языков и широкие кодировки символов для азиатских языков.

Поскольку кодировки обязательно имеют только ограниченный набор символов, часто очень мало, многие из них использоваться только для представления текста в ограниченном подмножестве человеческих языков. Unicode является попыткой создать общий стандарт для представления всех известных языков, и большинство известных наборов символов являются подмножествами очень большого набора символов Unicode. Хотя существует несколько кодировок символов , доступных для Unicode, наиболее распространенным является UTF-8 , который имеет то преимущество, что обратно совместим с ASCII; то есть, каждый ASCII текстовый файл также текстовый файл в кодировке UTF-8 с одинаковым значением. UTF-8 также имеет то преимущество , что он легко автоматически обнаружить. Таким образом, общий рабочий режим UTF-8, программное обеспечение, при открытии файлов неизвестного кодирования, чтобы попытаться UTF-8 первый и возвращаться к локали зависит от унаследованных кодирования, когда это определенно не UTF-8.


Стилизованное значковое изображение текстового файла в формате CSV .