Парсинг сайтов для Битрикс

Благодаря парсингу можно получить различные данные с сайтов конкурентов, причём в автоматическом режиме. Скрипты-парсеры обходят нужные страницы и получают с них нужную информацию. Результат работы заносится в базу данных (например, MySQL) или в электронную таблицу (Excel и т.д.).

В дальнейшем данные можно анализировать или сразу загрузить на свой сайт.

Что можно парсить?

Например, ассортимент и цены конкурентов, что позволит заполнить каталоги своего интернета-магазина.

- картинки
Можно в автоматическом режиме обойти список URL и скачать из них картинки или же сразу грузить на нужный ftp-сервер.

- технические характеристики товара
Обычно товары интернет-магазина имеют большое количество свойств (параметров) - цвет, габаритные размеры, вес и т.д. Вся эта информация может быть спарсена и в дальнейшем загружена на нужный сайт. Также её можно использовать для создания фильтра по этим параметрам.

- разновидности товара
Скрипт может получить с нуных URL информацию о товарах с одним названием, но в разных модификациях. Это может быть одежда различных цветов и размеров, автомобили в разных комплектациях. Получив эту информацию, можно заполнить каталог своего интернет-магазина Битрикс.

- структура сайта
Структура сайта очень пригодится, если возникает необходимость создания интернет-магазина, для которого нет списка разделов каталога.

- описание товара
Возможно получить описание всех товаров сайтов-конкурентов. Причём возможно написать парсер, заменяющий определённые ключевые слова словами из своего списка.

- стоимость товаров и остатки на складе
Цены конкурентов нужны для того, чтобы держать стоимость товаров в нашем интернет-магазине примерно на уровне конкурентов. Причём важно получить и остатки товаров, и учитывать единицы измерения.

Парсеры имитируют действия пользователей и повышают нагрузку на сайт. Поэтому далеко не все их владельцы будут спокойно смотреть, как по их сайту "рыскают" подобные скрипты.

Чем защищаются от парсинга сайтов?
- запрещают доступ с каких-то IP-адресов;
- ограничивают скорость получения данных;
- блокируют подозрительные источники, которые можно понять по таким признакам, как размер и разрешение экрана, HTML-заголовкам и т.д.
Парсинг могут признать незаконным, если:
- в процессе работы были получены личные данные пользователей, чего не должно быть;
- сбор информации для получения преимущества на рынке;
- слишком большая нагрузка на сайт может быть расценена как вмешательство в работу компьютерных сетей, а это уже может быть квалифицироваться как уголовное преступление;
- была получена информация, защищённая авторским правом (статья 7.12 КоАП) или коммерческая тайна.

Когда парсинг наиболее оправдан?
- если нужно в сжатые сроки получить информацию и начать её использовать;
- когда товарный каталог очень объёмный, с большим количеством позиций, и человек будет обрабатывать его очень долго;
- когда у каждого товара имеется много свойств, что значительно увеличит наполнение каталога вручную;
- если нужно настроить автоматический парсинг сайта - например, раз в день или раз в неделю;
- также стоит помнить про человеческий фактор - например, контент-менеджер может пропустить какие-то позиции, неправильно заполнить названия или забыть про часть свойств. Грамотно настроенный скрипт таких проблем не имеет.
Вопросы и ответы
Что будет, если изменится структура сайта-источника?
- мы стараемся сделать скрипт максимально универсальным. Изменение структуры сайта может сделать парсинг сайта невозможным и потребуется повторная работа программиста, что является новой задачей и должна быть оплачена отдельно. Можно заключить договор технической поддержки с нашей компанией и делать изменения в рамках соглашения.
Можно ли полностью скопировать сайт подобным инструментом?
- парсер может получить по нужным ссылкам весь контент сайта вместе с картинками, но такая информация не будет уникальной, из-за чего не получится добиться хороших позиций в поисковых системах.