274 subscribers

Скелет для парсера на Python

150 full reads
Скелет для парсера на Python

Специалист по анализу данных нуждается в постоянном притоке актуальных сведений. В силу распространенной проблемы отсутствия релевантной информации в необходимом для качественного анализа объеме, зачастую приходится извлекать эти сведения из веб-страниц путем парсинга и без использования какого-либо API.

Ранее я делился основами веб-скрапинга на Python с использованием библиотек requests и urllib (для получения контента), а также beautifulsoup4 (для его разбора). В частности, я сообщил об основах работы с методами объекта BeautifulSoup find и findAll, позволяющими получать первый и все результаты поиска тегов и их атрибутов, а также привел код функции для безопасного получения страницы с использованием средств анонимизации (подробнее здесь).

Теперь предлагаю пойти дальше и поэтапно реализовать базовый функционал для проведения парсинга ряда сайтов, имеющих шаблонную структуру. В их число входят площадки для размещения объявлений о продаже товара либо спортивные ресурсы о проведенных матчах или боях. Общим при проведении их парсинга является необходимость определения контейнеров, в которых находятся ссылки на события, извлечение этих адресов, после чего - серфинг по товарам либо матчам со сбором статистики о каждом из них.

Скелет для парсера на Python
Скелет для парсера на Python
Скелет для парсера на Python
Скелет для парсера на Python

Таким образом, для скрапинга нам будет необходимо реализовать следующие модули:

Скелет для парсера на Python

В дальнейшем напишем код для программирования работы каждого модуля.