Значения , разделенные табуляцией ( TSV файл) представляет собой простой текстовый формат для хранения данных в табличной структуре, например, таблицы базы данных или табличных данных [1] и способ обмена информацией между базами данных . [2] Каждая запись в таблице представляет собой одну строку текстового файла . Каждое значение поля записи отделяется от следующего символом табуляции . Формат TSV, таким образом, является типом более общего формата значений, разделенных разделителями .
Расширение имени файла | .tsv , .tab |
---|---|
Тип интернет-СМИ | текст / значения, разделенные табуляцией |
Тип формата | мультиплатформенность, последовательные потоки данных |
Контейнер для | информация базы данных организована в виде списков, разделенных полями |
Стандарт | Тип IANA MIME |
TSV - это простой формат файла, который широко поддерживается, поэтому он часто используется при обмене данными для перемещения табличных данных между различными компьютерными программами, поддерживающими этот формат. Например, файл TSV может использоваться для передачи информации из программы базы данных в электронную таблицу.
TSV - это альтернатива общему формату значений, разделенных запятыми (CSV), который часто вызывает трудности из-за необходимости экранировать запятые - буквальные запятые очень распространены в текстовых данных, но буквальные табуляции нечасты в бегущем тексте. Стандарт IANA для TSV [2] обеспечивает простоту, просто запрещая вкладки в полях.
Пример
Например, заголовок набора данных о цветке ириса может быть сохранен как TSV с использованием следующего простого текста (обратите внимание, что при отрисовке HTML табуляции могут быть преобразованы в пробелы):
Длина чашелистиков Ширина чашелистиков Длина лепестков Ширина лепестков Вид5,1 3,5 1,4 0,2 I. сетоса4.9 3.0 1.4 0.2 I. setosa4,7 3,2 1,3 0,2 I. setosa4,6 3,1 1,5 0,2 I. setosa5,0 3,6 1,4 0,2 I. setosa
Приведенный выше простой текст TSV соответствует следующим табличным данным:
Длина чашелистики | Ширина чашелистики | Длина лепестка | Ширина лепестка | Разновидность |
---|---|---|---|---|
5.1 | 3.5 | 1.4 | 0,2 | I. setosa |
4.9 | 3.0 | 1.4 | 0,2 | I. setosa |
4,7 | 3.2 | 1.3 | 0,2 | I. setosa |
4.6 | 3.1 | 1.5 | 0,2 | I. setosa |
5.0 | 3,6 | 1.4 | 0,2 | I. setosa |
Соглашения для преобразования без потерь в TSV
Поскольку значения в формате TSV не могут содержать буквальные табуляции или символы новой строки, необходимо соглашение для преобразования текстовых значений с этими символами без потерь. Распространенным соглашением является выполнение следующих экранирований: [3] [4]
\ n для новой строки, \ t для вкладки, \ r для возврата каретки, \\ для обратной косой черты.
Другое распространенное соглашение - использовать соглашение CSV из RFC 4180 и заключать эти специальные символы в двойные кавычки. Это может привести к двусмысленностям.
Другая неоднозначность заключается в том, разделяются ли записи символом новой строки, как это было бы типично для строк в UNIX, или символом возврата каретки, новой строки, как это было бы типично для платформ Microsoft. Многие программы, такие как LibreOffice, ожидают возврата каретки и новой строки.
Смотрите также
Рекомендации
- ^ Как использовать файлы значений, разделенных табуляцией (TSV), опубликованные Международным валютным фондом
- ^ а б «Определение значений, разделенных табуляцией (tsv)» . Управление по распределению номеров в Интернете (IANA) .
- ^ «Линейный ТСВ» . Протоколы данных - Open Knowledge Foundation .
- ^ "Руководство по jq" . stedolan.github.io .
Библиография
- IANA , Text Media Types, Definition of tab-separated-values (tsv) , Пол Линднер, U из MN Internet Gopher Team, июнь 1993 г.
- Значения , разделенные табуляцией (TSV): формат для обмена табличными данными , Jukka Korpela, создан 2001-09-01, последнее обновление 2005-02-12.
Внешние ссылки
- Формат файла значений , разделенных табуляцией , руководство Gnumeric