Архив: Задача по парсингу сайта и сбору информации csv файл. Черкассы.
Бюджет
По договоренности
Создан: 5 лет назад
Закрыт
- Описание
- Шаг 1. Парсим каждую из внутренних страниц сайта https://hpjav.tv (осторожно, эротика). Я дам список страниц.
Шаг 2. Находим 7 iframe (2 типа) на каждой странице.
Шаг 3. В каждом из iframe находим ссылку на сайт (сохраняем в файл), ссылку на графический файл баннера (сохраняем в файл).
Шаг 4. Переходим по ссылке на сайт (взяли из iframe), (при этом отслеживаем все промежуточные страницы - сохраняем в файл).
Шаг 5. После окончания загрузки - сохраняем финальный URL в файл.
Шаг 3-5 нужно повторить для каждого из 7 iframe на странице.
Результат должен быть в виде .csv файла со структурой:
ссылка на графический файл баннера - URL : ссылка на сайт - URL : промежуточные переходы (URLs) : финальный URL
Я должен запускать парсинг самостоятельно на своем сервере.
Технологии: на ваше усмотрение Python + Selenium или zennoposter или что-то аналогичное.
- Город
- Черкассы
- Категория