Найти в Дзене
В Дзене применяются
рекомендательные технологии

Парсинг цен с помощью Google Таблицы

Очень часто компании хотят сравнить свои цены с ценами конкурентов или собрать справочник по ценам для нужд отдела закупок. Иногда поставщики или посредники идут на встречу и отправляют прайс-листы, в иных случаях данные можно "спарсить" из интернет-магазина.

Парсинг (от английского parse) - это автоматический разбор текста в соответствии с заданными правилами. В качестве текста могут выступать и таблицы, и интернет-страницы.

Сегодня мне пришла рассылка от одного из магазинов автотоваров, поэтому попробуем получить в таблицу список товаров, артикулов и цен.

Для начала зайдем в каталог:

Скриншот интернет-магазина
Скриншот интернет-магазина

По-умолчанию показывается только 15 карточек товара, а нам нужно отобразить все. Обращаем внимание, что если нажать на кнопку "выводить по 30", в адресной строке поменяется один из параметров.

Скриншот из интернет-магазина. Желтым отмечен параметр в адресной строке
Скриншот из интернет-магазина. Желтым отмечен параметр в адресной строке

Что если заменить его, например, на 300?

Скриншот из интернет-магазина. Желтым отмечен параметр в адресной строке
Скриншот из интернет-магазина. Желтым отмечен параметр в адресной строке

Действительно, отобразились все карточки. С такой страницей удобно работать в Google Таблицы с помощью функции IMPORTXML. Скопируем ссылку на эту страницу и вставим для удобства в ячейку A1 нашей таблицы, а в ячейке A3 начнем писать формулу:

=importxml(A1; "//a")

В таком виде формула покажет все блоки на страницы, находящиеся в тэге <a></a> - все ссылки. Но нам нужно немного другое. Чтобы понять, что именно нужно указать в формуле, посмотрим, какой код используется для отображения карточек товаров. Для этого нажмем на карточку товара правой кнопкой мыши и выберем пункт меню "Inspect Element"

Скриншот окна браузера с интернет-магазином и просмотром кода страницы.
Скриншот окна браузера с интернет-магазином и просмотром кода страницы.

На скриншоте желты помечены поля, которые нам нужны. А именно, нам нужны все поля типа div с параметром class="item-v-art" и с параметром class="row-price". Отредактируем формулу:

=importxml(A1;"//div[@class='item-v-art'")

Скриншот гугл-таблиц
Скриншот гугл-таблиц

Функция подтянула все карточки товара и разложила в два столбца (потому что в тэге <div class="item-v-art"> вложено два других тэга). Результат уже не плох. Осталось добавить цены. В третью колонку в ячейке C3 напишем похожую формулу:

=importxml(A1;"//div[@class='row-price'")

И вот, готовый результат. То, что нужно!

Скриншот гугл-таблиц
Скриншот гугл-таблиц

Получившаяся таблица доступна всем по ссылке: https://docs.google.com/spreadsheets/d/1oXIljzj-ahT8CTSrJqnTbVOzRj-ru0bwvtxjYVWz4Qg/edit?usp=sharing

Делитесь своими интересными кейсами в комментариях, окажу посильную помощь.

Что-то пошло не так, и нам не удалось загрузить комментарии. Попробуйте ещё раз
Рекомендуем почитать
Итоги моего Авито челленджа за май: превращаю пассивы в активы
Продолжаю свой челлендж по разбарахлению на Авито. Продаю не нужные вещи, а все вырученные деньги складываю на отдельный брокерский счет, покупаю на них активы, рассказываю какие и почему. Доходы от Авито месяц на месяц не приходятся. Иногда бывают хлебные месяца, иногда нет. Вот май выдался хлебным по меркам Авито. В мае я активизировалась и выставила много новых объявлений. У меня есть теория, что когда я размещаю много новых объявлений, продажи растут. По крайней мере я такую закономерность наблюдала уже много раз...
reCAPTCHA: 819 млн потраченного времени и миллиарды $ прибыли для Google
Как же за*** эта капча! Частая история? Когда вы заходите на сайт, вам показывают изображение с искаженными цифрами и буквами и попросить ввести их в поле, чтобы доказать, что вы человек... Эти тесты, называемые CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart — «Полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей»), широко используются на сайтах для защиты от ботов и спама. В 2007 году Луис фон Ан предложил интересную идею:...
Используем значения из другой таблицы
Новые возможности редакторов Завершаем серию постов про «Р7-Редакторы» версии 2024.1.2. Мы уже рассказали про новые возможности выделения, сохранения и печати. Осталось еще одно улучшение в редакторе электронных таблиц – это возможность указывать в формулах ячейки из другого файла. Покажем, как это выглядит. Расскажем, как этим пользоваться. Значения ячеек из других книг Зачем нужно ссылаться на другие таблицы. Очевидно, чтобы не копировать данные, не переносить их из документа в документ. Когда...
Следующая статья
Документы, вакансии и контакты