Найти в Дзене
Машинное обучение

Парсинг веб-страниц на Python

Парсинг веб-страниц

Парсинг веб-страниц (scraping) нужен для многих целей: от борьбы с сервисами, которые не предоставляют API, до создания поисковых систем.

Для демонстрации мы извлечем заголовки новостей с главной страницы журнала. C помощью библиотеки requests и парсера HTML BeautifulSoup мы можем сделать это всего в несколько строк.

Установим библиотеки: pip3 install requests beautifulsoup4. Теперь откроем xakep.ru в отладчике браузера и увидим, что заголовки новостей находятся в тэгах <h3 class="entry-title">, но не напрямую, а во вложенных <a> и <span>. К счастью для нас, BeautifulSoup поддерживает селекторы CSS3, а в ее стандарте tag1 tag2 как раз означает «<tag2> вложенный в <tag1>. То есть, наш селектор для заголовков новостей будет h3.entry-title a span.

Сохрани в файл вроде xakep-headings.py и выполни python3 xakep-headings.py или просто скопируй в интерпретатор, и ты увидишь все свежие новости.

Python/ django

Что-то пошло не так, и нам не удалось загрузить комментарии. Попробуйте ещё раз
Рекомендуем почитать
10 скрытых возможностей Excel, которые заменят программиста 💻➡️📊
Excel — это не просто таблицы с цифрами. Современные версии содержат мощные инструменты, которые могут автоматизировать сложные задачи без единой строчки кода. Сегодня я покажу вам функции, которые заменят целый IT-отдел и сэкономят десятки часов рутинной работы! 🔗 Больше лайфхаков для офисных гениев — в Telegram-канале "Не баг, а фича" Что заменяет: Python-скрипты для обработки данных Где найти: "Данные" → "Получить данные" Power Query — это визуальная среда для: Пример из жизни: Ежемесячно сводите...
ChatGPT научил как ускорить Python, программисты пишут и нахваливают
Надеюсь, эти идиотские заголовки радуют вас :) В прошлый раз я сравнивал время выполнения различных методов на Питоне и на JS: Меня неприятно (по отношению к Питону) удивил тот факт, что JS-код исполнялся в 50 раз быстрее такого же на Питоне. Но у него есть один секрет. JIT Это означает Just In Time Compiler. Обычный компилятор просто вдумчиво компилирует программу. В отличие от него JIT занимается компиляцией прямо во время выполнения, то есть совмещает функции интерпретатора и компилятора. Читайте также: Деятельность JIT разбита на несколько стадий...
Задачка про счастливый билет : решаем на Python
Проводили вчера занятие с учеником и разбирали одну задачку, которая навеяла на меня ностальгию. Все же помнят билеты в трамвая и автобусах? А помните, что когда попадался счастливый билет, то нужно было загадать желание и съесть его? Счастливый билет обладал небольшой математической магией... Определить, является ли заданное шестизначное число счастливым. (Счастливым называют такое шестизначное число, в котором сумма его первых трех цифр равна сумме его последних трех цифр.) Конечно же решение может быть разным...
Следующая статья
Документы, вакансии и контакты