Sector / Sphere - это программный пакет с открытым исходным кодом для высокопроизводительного распределенного хранения и обработки данных . Это может быть в целом по сравнению с Google «s GFS и MapReduce технологий. Сектор - это распределенная файловая система, предназначенная для хранения данных на большом количестве обычных компьютеров. Sphere - это структура архитектуры программирования, которая поддерживает параллельную обработку данных в хранилище для данных, хранящихся в Sector. Сектор / Сфера работает в настройке глобальной сети (WAN).
Разработчики) | Секторный альянс |
---|---|
Стабильный выпуск | 2.8 / 8 октября 2012 г. |
Написано в | C ++ |
Операционная система | Linux / Windows |
Тип | Распределенная файловая система |
Лицензия | Лицензия Apache 2.0 |
Веб-сайт | сектор |
Система была создана Юнхонг Гу (автором протокола передачи данных на основе UDP ) в 2006 году, а затем обслуживалась группой других разработчиков.
Архитектура
Сектор / Сфера состоит из четырех компонентов. Сервер безопасности поддерживает политики безопасности системы, такие как учетные записи пользователей и список управления доступом IP. Один или несколько главных серверов управляют операциями всей системы в дополнение к ответам на различные запросы пользователей. Подчиненные узлы хранят файлы данных и обрабатывают их по запросу. Клиенты - это компьютеры пользователей, с которых отправляются запросы на доступ к системе и обработку данных. Кроме того , Сектор / Сфера написана на C ++ и испрашивается для достижения своей архитектурой в 3:58 раза лучшую производительность , чем конкурент Hadoop который написан на Java , [1] заявление поддержана Aster Data Systems бенчмарка [2] и победа в «вызове пропускной способности» на суперкомпьютерных конференциях 2006, [3], 2008, [4] и 2009. [5]
Сектор
Сектор - это файловая система пользовательского пространства, которая использует локальную / собственную файловую систему каждого узла для хранения загруженных файлов. Sector обеспечивает отказоустойчивость на уровне файловой системы за счет репликации, поэтому не требует отказоустойчивости оборудования, такого как RAID , который обычно очень дорог.
Сектор не разбивает пользовательские файлы на блоки; вместо этого пользовательский файл сохраняется в неизменном виде в локальной файловой системе одного или нескольких подчиненных узлов. Это означает, что у Sector есть ограничение на размер файла, зависящее от приложения. Однако преимущества заключаются в том, что файловая система Sector очень проста и приводит к повышению производительности при параллельной обработке данных Sphere из-за уменьшения передачи данных между узлами. Это также позволяет доступ к загруженным данным извне системы Сектора.
Sector предоставляет множество уникальных функций по сравнению с традиционными файловыми системами. Сектор знает топологию. Пользователи могут определять правила размещения и репликации файлов в системе в соответствии с топологией сети. Например, данные определенного пользователя могут находиться в определенном кластере и не будут реплицироваться на другие стойки. Другой пример: у одних файлов может быть больше реплик, чем у других. Такие правила могут применяться на уровне каждого файла.
Осведомленность о топологии и использование UDT в качестве протокола передачи данных позволяет Sector поддерживать высокопроизводительный ввод-вывод данных в географически распределенных местах, в то время как большинство файловых систем можно развернуть только в локальной сети. По этой причине Sector часто развертывается как сеть распространения контента для очень больших наборов данных.
Сектор объединяет хранение и обработку данных в единую систему. Каждый узел хранения также может использоваться для обработки данных, таким образом, он может поддерживать массивную параллельную обработку данных в хранилище (см. Sphere). Sector поддерживает приложения, что означает, что он может предоставлять приложениям информацию о местоположении данных, а также позволяет приложениям указывать местоположение данных, когда это необходимо.
В качестве простого примера преимуществ Sphere, Sector может возвращать результаты таких команд, как «grep» и «md5sum», не считывая данные из файловой системы. Более того, он может вычислять результаты для нескольких файлов параллельно.
Клиент Sector предоставляет API для разработки приложений, который позволяет пользовательским приложениям напрямую взаимодействовать с Sector. Программное обеспечение также поставляется с набором инструментов командной строки для доступа к файловой системе. Наконец, Sector поддерживает интерфейс FUSE ; представляя монтируемую файловую систему, доступную через стандартные инструменты командной строки.
Сфера
Sphere - это механизм параллельной обработки данных, интегрированный в Sector, и его можно использовать для параллельной обработки данных, хранящихся в Sector. Его можно в целом сравнить с MapReduce , но он использует общие пользовательские функции (UDF) вместо функций map и reduce. UDF может быть функцией карты, функцией сокращения или даже другими. Sphere может управлять расположением как входных, так и выходных данных, таким образом, он может эффективно поддерживать несколько наборов входных данных, комбинаторные и итерационные операции и даже исполняемые файлы унаследованных приложений.
Поскольку Sector не разделяет пользовательские файлы, Sphere может просто обернуть многие существующие приложения, которые принимают файлы или каталоги в качестве входных данных, без их перезаписи. Таким образом, он может обеспечить большую совместимость с устаревшими приложениями. [ необходима цитата ]
Смотрите также
- Pentaho - интеграция данных с открытым исходным кодом (Kettle), аналитика, отчетность, визуализация и прогнозная аналитика непосредственно из узлов Hadoop
- Nutch - попытка создать поисковую систему с открытым исходным кодом на основе Lucene и Hadoop, также созданная Дугом Каттингом.
- Apache Accumulo - безопасный большой стол
- HBase - Bigtable - база данных моделей
- Hypertable - альтернатива HBase
- MapReduce - фундаментальный алгоритм фильтрации данных Hadoop
- Apache Mahout - алгоритмы машинного обучения, реализованные на Hadoop
- Apache Cassandra - база данных, ориентированная на столбцы, которая поддерживает доступ из Hadoop.
- HPCC - кластер высокопроизводительных вычислений LexisNexis Risk Solutions
- Облачные вычисления
- Большое количество данных
- Обработка данных с интенсивным использованием данных
Литература
- Юнхун Гу, Роберт Гроссман, « Сектор и сфера: разработка и внедрение высокопроизводительного облака данных» , тематический выпуск философских трудов Королевского общества A: Пересечение границ: вычислительные науки, электронная наука и глобальная электронная инфраструктура, 28 июня 2009 т. 367 нет. 1897 2429–2445.
Рекомендации
- ^ Сектор против Hadoop - Краткое сравнение двух систем
- ^ Сектор / Сфера - Быстрее, чем Hadoop / Mapreduce в Terasort 26 сентября 2010 Аджай Охри
- ^ NCDM выигрывает Bandwidth вызов на SC06, HPCwire, 24 ноября 2006 года
- ^ Группы UIC выиграли награду за вызов пропускной способности, HPCWire, 20 ноября 2008 г.
- ^ Open Cloud Testbed выиграл конкурс на пропускную способность на SC09, 8 декабря 2009 г.
Внешние ссылки
- Проект сектора / сферы на SourceForge