Оригинальный автор (ы) | Леонард Ричардсон |
---|---|
изначальный выпуск | 2004 г. |
Стабильный выпуск | 4.9.3 / 3 октября 2020 г . |
Репозиторий | |
Написано в | Python |
Платформа | Python |
Тип | Библиотека парсера HTML, парсинг веб-страниц |
Лицензия | Лицензия Python Software Foundation (Beautiful Soup 3 - более старая версия) Лицензия MIT 4+ [1] |
Интернет сайт | www |
Beautiful Soup - это пакет Python для анализа документов HTML и XML (в том числе с искаженной разметкой, т. Е. Незамкнутыми тегами, названными так в честь супа тегов ). Он создает дерево синтаксического анализа для проанализированных страниц, которое можно использовать для извлечения данных из HTML, [2] что полезно для парсинга веб-страниц . [1]
Beautiful Soup был основан Леонардом Ричардсоном, который продолжает вносить свой вклад в проект [3], и дополнительно поддерживается Tidelift, платной подпиской на обслуживание с открытым исходным кодом. [4]
Он доступен для Python 2.7 и Python 3.
- ! / usr / bin / env python3
- Извлечение привязки из HTML-документа
из bs4 импорт BeautifulSoupиз urllib.request import urlopenс urlopen (' https://en.wikipedia.org/wiki/Main_Page' ) в качестве ответа: soup = BeautifulSoup (ответ, 'html.parser') для якоря в soup.find_all ('a'): печать (anchor.get ('href', '/'))
Преимущества и недостатки [ править ]
В этой таблице приведены преимущества и недостатки каждой библиотеки синтаксического анализатора [1]
Парсер | Типичное использование | Преимущества | Недостатки |
---|---|---|---|
Python html.parser | BeautifulSoup (разметка, "html.parser") |
|
|
HTML-парсер lxml | BeautifulSoup (разметка, «lxml») |
|
|
XML-анализатор lxml | BeautifulSoup (разметка, «lxml-xml») |
|
|
html5lib | BeautifulSoup (разметка, "html5lib") |
|
|
Выпуск [ править ]
Beautiful Soup 3 был официальной линией выпуска Beautiful Soup с мая 2006 г. по март 2012 г. Текущий выпуск - Beautiful Soup 4.9.1 (17 мая 2020 г.).
Вы можете установить Beautiful Soup 4 с помощью pip install beautifulsoup4
.
См. Также [ править ]
Ссылки [ править ]
- ^ a b c "Сайт Beautiful Soup" . Проверено 18 апреля 2012 года .
Beautiful Soup лицензируется на тех же условиях, что и сам Python
- ^ Hajba, Габор Ласло (2018), Hajba, Габор Ласло (ред.), "Использование Beautiful Soup", сайт соскабливания с Python: Использование BeautifulSoup и Scrapy ., Apress, стр 41-96, DOI : 10.1007 / 978-1- 4842-3925-4_3 , ISBN 978-1-4842-3925-4
- ^ «Код: Леонард Ричардсон» . Launchpad . Проверено 19 сентября 2020 .
- ^ Tidelift. "beautifulsoup4 | pypi через подписку Tidelift" . tidelift.com . Проверено 19 сентября 2020 .
Эта статья о компьютерной библиотеке - незавершенная . Вы можете помочь Википедии, расширив ее . |