Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Beautiful Soup - это пакет Python для анализа документов HTML и XML (в том числе с искаженной разметкой, т. Е. Незамкнутыми тегами, названными так в честь супа тегов ). Он создает дерево синтаксического анализа для проанализированных страниц, которое можно использовать для извлечения данных из HTML, [2] что полезно для парсинга веб-страниц . [1]

Beautiful Soup был основан Леонардом Ричардсоном, который продолжает вносить свой вклад в проект [3], и дополнительно поддерживается Tidelift, платной подпиской на обслуживание с открытым исходным кодом. [4]

Он доступен для Python 2.7 и Python 3.

  1. ! / usr / bin / env python3
  2. Извлечение привязки из HTML-документа
из bs4 импорт BeautifulSoupиз urllib.request import urlopenс urlopen (' https://en.wikipedia.org/wiki/Main_Page' ) в качестве ответа: soup = BeautifulSoup (ответ, 'html.parser') для якоря в soup.find_all ('a'): печать (anchor.get ('href', '/'))

Преимущества и недостатки [ править ]

В этой таблице приведены преимущества и недостатки каждой библиотеки синтаксического анализатора [1]

Выпуск [ править ]

Beautiful Soup 3 был официальной линией выпуска Beautiful Soup с мая 2006 г. по март 2012 г. Текущий выпуск - Beautiful Soup 4.9.1 (17 мая 2020 г.).
Вы можете установить Beautiful Soup 4 с помощью pip install beautifulsoup4.

См. Также [ править ]

Ссылки [ править ]

  1. ^ a b c "Сайт Beautiful Soup" . Проверено 18 апреля 2012 года . Beautiful Soup лицензируется на тех же условиях, что и сам Python
  2. ^ Hajba, Габор Ласло (2018), Hajba, Габор Ласло (ред.), "Использование Beautiful Soup", сайт соскабливания с Python: Использование BeautifulSoup и Scrapy ., Apress, стр 41-96, DOI : 10.1007 / 978-1- 4842-3925-4_3 , ISBN 978-1-4842-3925-4
  3. ^ «Код: Леонард Ричардсон» . Launchpad . Проверено 19 сентября 2020 .
  4. ^ Tidelift. "beautifulsoup4 | pypi через подписку Tidelift" . tidelift.com . Проверено 19 сентября 2020 .