Очередной пример парсинга.
Задача.

Собрать все товары с сайта msk.metro-cc.ru по региону
“Москва, 1-я Дубровская 13,а”



Что собирать.

1. Заголовок товара
2. Описание товара
3. Характеристики товара (если есть)
4. Изображение товара
5. Стоимость
6. Валюта
7. Раздел товара
8. Уникальный идентификатор (выдавать самому)
9. Артикул товара



Подробнее про сбор

3) Характеристики товара - собирать из вкладки “Характеристики”, каждое название и значение характеристики собирать в отдельные ячейки таблицы.
(Хар-ка | Знач. хар-ки | Хар-ка | Знач. хар-ки).

4) Все картинки качать в отдельную папку, названия картинок делать такими-же как уникальный идентификатор.

5) Стоимость - Увеличивать собранную стоимость на 15%.

6) Валюта - Проставлять для всех товаров валюту RUB.



Собранные данные должны сохраняться в отдельную таблицу с названием в виде раздела, в котором находится товар в латинице.



Что было сделано.

Для сбора товаров была использована программа Content Downloader. Настроенная на сбор в 5-ти потоках.
Процесс парсинга проходил в 4 этапа:

Настройка сканера сайтов;
Сбор ссылок при помощи сканера сайтов;
Настройка сбора и сохранения данных с собранных ссылок на страницы;
Сбор и сохранение данных и последующая их ручная проверка.

Итог. Что получил клиент.

В итоге Клиент получил более 20 000 товаров в удобном для загрузки на сайт формате.
Отчет был получен на следующий день после обсуждения заказа.