Бюджет 83$ / 5000
руб
в месяц
Создан: 3 года назад
На модерации
Описание
Добрый день!

Задача:

1. Запуск под веб-сервером. Указываем название домена – запускаем парсинг.
2. Парсим с эмуляцией браузера (Web Scraping), для прогрузки страницы с выполненными скриптами (например, Ajax проекты) – главную страницу сайта.
  2.1 Проверяем все ссылки на странице, добавляем их в базу(SQL), ставим страницы в очередь на парсинг. 
  2.2 Проверяем на дубли в базе.
  2.3 Помечаем внутренние и внешние ссылки. 
3. Сохраняем веб страницу целиком, сохраняя структуру папок (урл) как на сайте, вместе со всеми вложениями (картинки, доки и тд.).
4. Переходим к парсингу других страниц в очереди.

Пишем в базу(sql) все названия страниц(урл) и пути к ним на нашем сервере.

1. В отдельных таблицах размещаем информации о количестве ссылок каждой страницы(внутренние, внешние), коды ответов по ним. 
1.1 Проверяем ссылки на наличие текста в теге  
1.2 Проверяем ссылки на наличие названия в теге   
2. В отдельных таблицах информации о количестве картинок, коды ответов по ним 2.1 Поверяем наличие описание в картинках

На выходе, должны получить папку с проектом:  domesite.ru
Где все его страницы загружены и разложенные по папками:  
/news/ 
/news/siteurlnews.html, 
/news/groupe/siteurlnews.html, 
siteurl1.html, 
/about/siteurl2.html  
/css/
/js/
а также папки со всеми css, js, картинками встречающимися в коде всех страниц.

Делаем проверку на дубли, чтобы не сохранять многократно одни и теже страницы, картинки, js, css и тд.


Указываем сроки и стоимость.
Категория
Источник: fl.ru

Похожие проекты

safe$22
9 0
требуется готовую онлайн анкету на django по приему на работу перенести в whatsapp, telegram и viber. Нужно чтобы кандидат мог с удобством заполнять анкету с телефона, а все заполненные им данные по всем позициям автоматически загружались в нашу базу данных. В нашей базе будет создаваться резюме кандидата......
safe 
28 0
В наличии массив кадастровых номеров (КН), необходимо путем запроса на ПКК определить примерные географические координаты каждого объекта из массива КН (ОКС, ЗУ), вывести в результирующий файл эти ко-ты и ряд сопутствующих данных по этому КН....
1 год назад
safe 
44 1
Необходимо разработать бек и фронт мини-сервиса таким образом, чтоб его можно было развернуть внутри другого проекта....
safe$1111
23 0
Стоит на Бизнесе для своих нужд на простеньком базовом шаблоне, складываю туда контент потихоньку. Нужно начинать приводить в соответствие что бы публика сразу не убегала, а как то цеплялась, да и продвигать не торопясь. Шаблон где порвался от вставки баннеров подправить, для мобилок может сверстать.......
safe$22
55 0
Парсер для сайта stockx. com на питоне (selenium/pyppeteer). Необходим следующий функционал: 1. На главной странице с поиском по ключевым словам найти первый результат из поиска (ссылку на страницу товара) ....
1 год назад
safe$44
49 0
Трипланарная транспортная задача (отправители - транспорт - получатели) генерация исходных данных трехэтапное решение 1....
safe$1111
48 0
Требуется написать парсер маркетплейса, у которого есть только мобильное приложение (IOS, Android). Есть исходный код Android приложения (Java + Kotlin), реверснутый через JADX. Необходимо парсить данные о товарах, полученные по артикулу. За подробностями тг: @markermann)....
1 год назад
 
38 0
Требуется написать софт , который будет делать рассылку по личным сообщениям на площадке Ebay Kleinanzeigen по заранее спаршенным обьявлениям....
1 год назад
 
36 0
Требуется написать софт , который будет делать рассылку по личным сообщениям на площадке Ebay Kleinanzeigen по заранее спаршенным обьявлениям....
1 год назад
 
37 0
Требуется написать софт , который будет делать рассылку по личным сообщениям на площадке Ebay Kleinanzeigen по заранее спаршенным обьявлениям....
1 год назад
 
31 0
Требуется написать софт , который будет делать рассылку по личным сообщениям на площадке Ebay Kleinanzeigen по заранее спаршенным обьявлениям....
1 год назад
 
40 1
Требуется написать софт , который будет делать рассылку по личным сообщениям на площадке Ebay Kleinanzeigen по заранее спаршенным обьявлениям....
1 год назад
$22
59 1
В Геткурсе нужно сделать интеграцию со Сбербанком для оформления рассрочки/кредита. Основная задача – передача суммы и номера заказа при переходе для оформления рассрочки и возврат сведений при удачном оформлении. Эквайринг от Сбербанка к Геткурсу подключён, а готовой интеграции для рассрочки нет. Если......
1 год назад
 
96 0
Нужно сделать бот перехватчик заказов по фильтру такси Максим!...
1 год назад
$33
75 1
Как можно загрузить готовое фото из галереи, если приложение просит загрузить фото и при этом открывает камеру телефона? Нужно вместо использования реальной камеры смоделировать вход камеры и при этом загрузить фото из галереи....
1 год назад
 
117 3
Очень простой криптообменник в виде веб-сайта. Без смарт-контрактов и т. Все платежи вручную....
Смотреть все