Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Термин время простоя используется для обозначения периодов, когда система недоступна.

Недоступность является доля времени пролета , что система недоступна или отсутствует . Обычно это результат того, что система не функционирует из-за незапланированного события или из-за планового обслуживания (запланированное событие).

Этот термин обычно применяется к сетям и серверам . Распространенными причинами незапланированных отключений являются сбои системы (например, сбой ) или сбои связи (обычно известные как сбой сети ).

Этот термин также обычно применяется в промышленных условиях в отношении отказов промышленного производственного оборудования. На некоторых предприятиях измеряется время простоя во время рабочей смены или в течение 12- или 24-часового периода. Другой распространенной практикой является определение каждого простоя как имеющего операционную, электрическую или механическую причину.

Противоположность простоям - это время безотказной работы .

Типы [ править ]

Отраслевые стандарты для термина «Продолжительность простоя» или «Продолжительность технического обслуживания» могут иметь разные точки начала и завершения, поэтому следует использовать следующие пояснения, чтобы избежать конфликтов при выполнении контракта:

  1. «Под ключ» - это самый увлекательный из всех видов простоев. Отключение или обслуживание начинается с того, что оператор установки или оборудования нажимает кнопку выключения или остановки, чтобы инициировать остановку работы. Если не указано иное, отключение или техническое обслуживание считаются завершенными, когда завод или оборудование вернулись в нормальный режим работы, готовые начать производство, или готовы быть синхронизированы с системой или сетью, или готовы выполнять обязанности в качестве насоса или компрессора.
  2. «От выключателя к выключателю» Этот отказ или техническое обслуживание начинается с того, что оператор установки или оборудования отключает силовую цепь (главный силовой выключатель находится в состоянии «выключено», «отключено» или «включено-охлаждение»), а не цепь управления из работы. Это по-прежнему позволяет охлаждать оборудование или доводить его до температуры окружающей среды, чтобы можно было подготовить или начать работы по отключению / техническому обслуживанию. В зависимости от типа оборудования отключение «от выключателя к выключателю» может быть выгодным при заключении контракта на техническое обслуживание, связанное с управлением, поскольку этот тип работ по техническому обслуживанию может выполняться, пока основное оборудование все еще находится в режиме охлаждения или в режиме ожидания. Если не указано иное, этот тип отключения считается завершенным, когда в силовую цепь повторно подается питание посредством включения силового выключателя.
  3. "Завершение блокировки / маркировки«Этот простой или техническое обслуживание (иногда ошибочно принимаемое за« отключение охлаждения », но не одно и то же) начинается с того, что оператор установки или оборудования отключает цепь питания, отключает цепь управления и выполняет другую нейтрализацию потенциальных источников энергии и опасности (обычно называемую блокировкой). -Out, Tag-Out "LOTO") Эта точка периода технического обслуживания обычно является последней фазой этапа инициирования отключения перед фактическим началом работ на объекте, заводе или оборудовании. Инструктаж по технике безопасности всегда должен следовать за деятельностью LOTO, прежде чем любая работа Если не указано иное, этот тип простоя считается завершенным, когда оборудование завершено механической обработкой и готово к установке в режим медленной прокатки для большого вращающегося оборудования, испытанию на работоспособность или проверке вращения двигателей и т. д.но должны иметь разрешение на возврат или работу в соответствии с процедурами LOTO.

Любое необходимое онлайн-тестирование, тестирование производительности и настройка не должны засчитываться в счет продолжительности простоя, поскольку эти действия обычно проводятся после завершения простоя или события технического обслуживания и не контролируются большинством подрядчиков по техническому обслуживанию.

Характеристики [ править ]

Незапланированный простой может быть результатом неисправности оборудования и т. Д.

Классификация отключений электросвязи [ править ]

Время простоя может быть вызвано отказом оборудования (физического оборудования), (оборудования логического управления), соединяющего оборудования (такого как кабели, оборудование, маршрутизаторы и т. Д.), Передачи (беспроводной, микроволновой, спутниковой) и / или пропускной способности (системы). пределы).

Отказы могут возникать из-за повреждений, сбоев, дизайна, процедурных (неправильное использование людьми), инженерных (как использовать и развертывание), перегрузки (трафик или системные ресурсы, превышающие установленные пределы), окружающей среды (вспомогательные системы, такие как питание и HVAC). , (сбои, встроенные в систему для таких целей, как обновление программного обеспечения и расширение оборудования), другие (ничего из вышеперечисленного, но известные) или неизвестные.

За сбои могут нести ответственность заказчик / поставщик услуг, продавец / поставщик, коммунальное предприятие, правительство, подрядчик, конечный заказчик, общественное лицо, стихийное бедствие, другое (ничего из вышеперечисленного, но известное) или неизвестное.

Воздействие [ править ]

Сбои, вызванные системными сбоями, могут серьезно повлиять на пользователей компьютерных / сетевых систем, особенно на те отрасли, которые полагаются на почти круглосуточное обслуживание:

Также затронуты могут быть пользователи интернет-провайдера и другие клиенты телекоммуникационной сети.

Корпорации могут потерять бизнес из-за сбоя сети или не выполнить контракт, что приведет к финансовым потерям. Согласно отчету Veeam 2019 по управлению облачными данными, организации сталкиваются с незапланированными простоями в среднем 5-10 раз в год, при этом средняя стоимость одного часа простоя составляет 102 450 долларов США. [1]

Люди или организации, на которые влияет простой, могут быть более чувствительны к определенным аспектам:

  • на некоторых больше влияет продолжительность простоя - для них важно, сколько времени потребуется на восстановление после проблемы.
  • другие чувствительны к срокам отключения - отключение в часы пик влияет на них больше всего

Самые требовательные пользователи - это те, кому требуется высокая доступность .

Известные сбои [ править ]

В День матери , в воскресенье, 8 мая 1988 г., произошел пожар в главной коммутационной комнате центрального офиса телефонной компании Illinois Bell в Хинсдейле . Это одна из крупнейших систем коммутации в штате, которая обрабатывала более 3,5 миллионов звонков каждый день, обслуживая 38 000 клиентов, включая многочисленные предприятия, больницы и аэропорты Чикаго О'Хара и Мидуэй. [2]

Практически вся сеть тандемных коммутаторов 4ESS компании AT&T снова и снова выходила из строя 15 января 1990 года, нарушая работу междугородной связи для всех Соединенных Штатов. Проблема исчезла сама собой, когда трафик замедлился. Обнаружена программная ошибка. [3]

13 апреля 1998 года AT&T потеряла свою сеть Frame Relay на 26 часов. [4] Это затронуло многие тысячи клиентов, и банковские транзакции стали одной жертвой. AT&T не смогла выполнить соглашение об уровне обслуживания по своим контрактам с клиентами и была вынуждена возместить [5] 6 600 счетов клиентов на сумму в миллионы долларов.

Xbox Live периодически простаивала во время курортного сезона 2007–2008 годов, который длился тринадцать дней. [6] Причиной простоя был назван повышенный спрос со стороны покупателей Xbox 360 (самое большое количество новых пользователей, зарегистрировавшихся в истории Xbox Live); Чтобы исправить проблемы с обслуживанием, Microsoft предложила своим пользователям возможность получить бесплатную игру. [7]

Sony «s PlayStation Network апреля 2011 отключения электричества , началось 20 апреля 2011 года, и постепенно восстанавливается от 14 мая 2011 года , начиная с Соединенными Штатами . Это отключение является самым продолжительным периодом времени, в течение которого PSN была отключена от сети с момента ее создания в 2006 году. Sony заявила, что проблема была вызвана внешним вторжением, которое привело к конфискации личной информации. [8] 26 апреля 2011 г. Sony сообщила, что большой объем пользовательских данных был получен с помощью того же взлома, который привел к простою.

Коммутатор Telstra Ryde вышел из строя в конце 2011 года после того, как из-за продолжающейся влажной погоды в электрический распределительный щит попала вода. Коммутатор Ryde является одним из крупнейших коммутаторов в Австралии по площади и затронул более 720 000 служб. [ необходима цитата ]

Центр обработки данных ServerAxis в Майами отключился без предупреждения 29 февраля 2016 г. и так и не был восстановлен. Это коснулось нескольких провайдеров и сотен веб-сайтов. Отключение повлияло на освещение баскетбольного турнира женского дивизиона NCAA 2016 года, поскольку WBBState, один из затронутых сайтов, был, безусловно, наиболее полным поставщиком статистических данных по женскому баскетболу. [9]

Уровни обслуживания [ править ]

В соглашениях об уровне обслуживания обычно указывается процентное значение (за месяц или год), которое рассчитывается путем деления суммы всех временных интервалов простоев на общее время контрольного периода времени (например, месяца). 0% простоя означает, что сервер был доступен все время.

Для интернет-серверов простои более 1% в год или хуже могут считаться неприемлемыми, поскольку это означает простои более 3 дней в году. Для электронной коммерции и другого промышленного использования любое значение выше 0,1% обычно считается неприемлемым. [ необходима цитата ]

Реакция и уменьшение воздействия [ править ]

Разработчик сети обязан убедиться, что сбой сети не произойдет. Когда это действительно произойдет, хорошо спроектированная система еще больше снизит последствия сбоя за счет локальных сбоев, которые можно будет обнаружить и устранить в кратчайшие сроки.

Должен существовать процесс обнаружения неисправности - мониторинг сети - и восстановления сети до рабочего состояния - обычно это включает группу службы поддержки, которая может устранить проблему, состоящую из обученных инженеров; отдельная группа службы поддержки обычно необходима для ввода данных пользователем, что может быть особенно требовательным во время простоя.

Управления сетью система может быть использована для обнаружения неисправных или унижающих компонентов перед жалобами клиентов, с проактивным устранением неисправностей.

Методы управления рисками могут использоваться для определения воздействия сбоев сети на организацию и того, какие действия могут потребоваться для минимизации риска. Риск можно минимизировать, используя надежные компоненты, выполняя техническое обслуживание, такое как обновления, используя резервные системы или имея план действий в чрезвычайных обстоятельствах или план обеспечения непрерывности бизнеса . Технические средства могут уменьшить количество ошибок с помощью кодов исправления ошибок , повторной передачи , контрольных сумм или схемы разнесения .

Одна из основных причин простоя - неправильная конфигурация, когда запланированное изменение идет не так, как надо. Обычно организации полагаются на ручное управление процессом резервного копирования конфигурации, но для этого требуются высококвалифицированные инженеры, у которых есть время для управления процессом в мультивендорной сети. Доступны инструменты автоматизации для управления резервным копированием, но существует очень мало решений, которые обрабатывают восстановление конфигурации, которое необходимо для минимизации общего воздействия сбоя.

Планирование [ править ]

Запланированный простой является результатом запланированной деятельности владельца системы и / или поставщика услуг . Эти простои, часто планируемые во время периода обслуживания , могут использоваться для выполнения задач, в том числе следующих:

  • Отложенное обслуживание, например, отложенный ремонт оборудования или отложенный перезапуск для очистки испорченной памяти.
  • Диагностика для выявления обнаруженной неисправности
  • Ремонт аппаратной неисправности
  • Исправление ошибки или упущения в базе данных конфигурации или упущения в недавнем изменении базы данных конфигурации
  • Исправление ошибки в базе данных приложения или ошибки в недавнем изменении базы данных приложения
  • Исправления программного обеспечения / обновления программного обеспечения для устранения ошибки программного обеспечения.

Отключение также может быть запланировано в результате предсказуемого природного события, такого как отключение Солнца .

В отраслях, где используются компьютерные системы, необходимо тщательно планировать время простоя на техническое обслуживание. Во многих случаях общесистемные простои можно предотвратить с помощью так называемого «последовательного обновления» - процесса постепенного отключения частей системы для обновления без ущерба для общей функциональности.

Избегание [ править ]

Для большинства веб- сайтов доступен мониторинг веб-сайтов . Мониторинг веб-сайтов (синтетический или пассивный) - это услуга, которая «отслеживает» время простоя и пользователей на сайте.

Другое использование [ править ]

Время простоя также может относиться к времени, когда падает человеческий капитал или другие активы. Например, если сотрудники находятся на собраниях или не могут выполнять свою работу из-за другого ограничения, они не работают. Это может быть столь же дорогостоящим и может быть результатом отказа другого актива (например, компьютера / системы). Это также широко известно как « мертвое время ».

Время простоя также обобщается в личном смысле, когда используется для обозначения периода сна или отдыха . [10] [11] [12]

Этот термин также используется на заводах или в промышленности. См. Полное продуктивное обслуживание (TPM).

Измерение времени простоя [ править ]

Существует множество внешних сервисов, которые можно использовать для мониторинга времени безотказной работы и простоя, а также доступности сервиса или хоста.

См. Также [ править ]

  • Высокая доступность
  • Время безотказной работы
  • Среднее время простоя
  • Планируемое время простоя
  • Несущий класс

Ссылки [ править ]

Введение и советы по поводу простоя веб-сайта

Почему важно отслеживать простои оборудования?

  1. ^ https://go.veeam.com/cloud-data-management-report-2019
  2. ^ Риск Digest Том 6: Выпуск 82 1988
  3. ^ «Крах сети AT&T в 1990 году» .
  4. ^ «Предотвращение сбоев сетевых служб IP» (PDF) . Agilent Technologies .
  5. ^ Дайджест рисков Том 19 Выпуск 72 1998
  6. ^ «ДЕНЬ 13, отключение Xbox» . Engadget. 2008-01-03 . Проверено 27 апреля 2011 .
  7. ^ Microsoft предлагает бесплатную игру для проблем с праздником Xbox Live . PC World , 4 января 2008 г.
  8. ^ https://www.google.com/hostednews/ap/article/ALeqM5j9AacQSaJXBQ3JUqZWxemjT8nMPw?docId=916344d02c284103af70f845db4befc1
  9. ^ Веб-сайт перешел в автономный режим и собрал большую часть аналитики женского колледжа по баскетболу с его помощью FiveThirtyEight
  10. ^ "Отдых и расслабление: почему" простой "важен для детей" .
  11. ^ «Важность планирования простоев» .
  12. ^ "Что недосыпание делает с вашим разумом" . Многие думают, что сон - это просто роскошь - небольшой отдых.