Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску Эта статья поднимает множество проблем. Пожалуйста, помогите
улучшить его или обсудите эти проблемы на
странице обсуждения .
( Узнайте, как и когда удалить эти сообщения-шаблоны ) Эта статья
требует дополнительных ссылок для проверки .
Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален. Найти источники: «Сравнение парсеров HTML» - новости · газеты · книги · ученый · JSTOR ( май 2015 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон )
Эта статья,
возможно, содержит оригинальные исследования .
Пожалуйста, улучшите его , проверив сделанные утверждения и добавив встроенные цитаты . Заявления, содержащие только оригинальные исследования, следует удалить. ( Май 2015 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )
( Узнайте, как и когда удалить этот шаблон сообщения )
Анализаторы HTML - это программное обеспечение для автоматического анализа языка гипертекстовой разметки (HTML) . У них две основные цели:
Обход HTML: предлагает программистам интерфейс для легкого доступа и изменения «строкового кода HTML». Канонический пример: парсеры DOM . Чистый HTML: исправить неверный HTML и улучшить макет и стиль отступа итоговой разметки. Канонический пример: HTML Tidy . Парсер Лицензия Язык (и) реализации Последняя дата * Разбор HTML [1] HTML5-совместимый синтаксический анализ Чистый HTML ** Обновить HTML *** HTML Tidy Лицензия W3C ANSI C 2017-03-01 [2] Да [3] да Да [3] да HtmlUnit Лицензия Apache 2.0Ява 2019-08-24 [4] да ? Нет Нет libxml2 HTMLparserЛицензия MIT C 2017-11-02 [5] да Нет ? ? Парсер Лицензия Язык (и) реализации Последняя дата * HTML-парсинг HTML5-совместимый синтаксический анализ Чистый HTML ** Обновить HTML ***
* Дата последнего выпуска (с существенными изменениями). ** санирование (создание стандартных веб-страниц, уменьшение спама и т. д.) и очистка (удаление лишних презентационных тегов, удаление кода XSS и т. д.) HTML-кода. *** Обновляет HTML4.X до XHTML или HTML5, преобразуя устаревшие теги (например, CENTER) в допустимые (например, DIV с style = "text-align: center;" ).