Очистка данных


Очистка данных — это метод, при котором компьютерная программа извлекает данные из удобочитаемого вывода, поступающего от другой программы.

Обычно передача данных между программами осуществляется с использованием структур данных, подходящих для автоматизированной обработки компьютерами , а не людьми. Такие форматы и протоколы обмена обычно имеют жесткую структуру, хорошо документированы, легко анализируются и сводят к минимуму двусмысленность. Очень часто эти передачи вообще не читаются человеком.

Таким образом, ключевой элемент, отличающий парсинг данных от обычного синтаксического анализа , заключается в том, что извлекаемые выходные данные предназначены для отображения конечному пользователю , а не в качестве входных данных для другой программы. Поэтому он обычно не документирован и не структурирован для удобного разбора. Очистка данных часто включает игнорирование двоичных данных (обычно изображений или мультимедийных данных), форматирования отображения , избыточных меток, лишних комментариев и другой информации, которая либо не имеет значения, либо препятствует автоматической обработке.

Очистка данных чаще всего выполняется либо для взаимодействия с устаревшей системой , в которой нет другого механизма, совместимого с текущим оборудованием , либо для взаимодействия со сторонней системой, которая не предоставляет более удобный API . Во втором случае оператор сторонней системы часто считает очистку экрана нежелательной из-за таких причин, как повышенная нагрузка на систему , потеря дохода от рекламы или потеря контроля над информационным содержанием.

Очистка данных обычно считается специальной , неэлегантной техникой, часто используемой только в качестве «последнего средства», когда нет другого доступного механизма для обмена данными. Помимо более высоких накладных расходов на программирование и обработку, выходные дисплеи, предназначенные для потребления человеком, часто часто меняют структуру. Люди с этим легко справятся, но компьютерная программа не справится. В зависимости от качества и степени логики обработки ошибок, присутствующей в компьютере, этот сбой может привести к появлению сообщений об ошибках, повреждению вывода или даже к сбою программы .

Хотя использование физических « глухих терминалов » IBM 3270 постепенно сокращается, поскольку все больше и больше приложений для мэйнфреймов приобретают веб- интерфейсы, некоторые веб-приложения просто продолжают использовать технику очистки экрана для захвата старых экранов и передачи данных в современные внешние интерфейсы. . [1]


Фрагмент экрана и интерфейс очистки экрана (синее поле с красной стрелкой) для настройки процесса сбора данных.