Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Apache ORC (Optimized Row Columnar) - это бесплатный формат хранения данных с открытым исходным кодом, ориентированный на столбцы, в экосистеме Apache Hadoop . Он похож на другие форматы файлов столбчатого хранения, доступные в экосистеме Hadoop, такие как RCFile и Parquet . Он совместим с большинством фреймворков обработки данных в среде Hadoop .

В феврале 2013 года Hortonworks в сотрудничестве с Facebook анонсировала формат файла Optimized Row Columnar (ORC) . [3] Через месяц был анонсирован формат Apache Parquet , разработанный Cloudera и Twitter . [4]

См. Также [ править ]

  • Apache Hive
  • Apache NiFi
  • Свинья (инструмент для программирования)
  • Apache Spark
  • Presto (механизм запросов SQL)

Ссылки [ править ]

  1. ^ «Инициатива Stinger: сделать Apache Hive в 100 раз быстрее» . Проверено 1 января 2019 года .
  2. ^ «Релизы» .
  3. Алан Гейтс (20 февраля 2013 г.). «Инициатива Stinger: сделать Apache Hive в 100 раз быстрее» . Блог Hortonworks . Проверено 31 декабря 2018 года .
  4. ^ Джастин Kestelyn (13 марта 2013). «Знакомство с Parquet: эффективное столбцовое хранилище для Apache Hadoop» . Блог Cloudera . Архивировано из оригинального 19 сентября 2016 года . Проверено 4 мая 2017 года .