Архив: Написать PHP класс для парсинга и валидации HTML

Бюджет 129$ / 3400
грн
в месяц
Создан: 6 лет назад
Закрыт
Описание
Существует нотация для разметки различного контента для страниц, например для статей https://schema.org/Article.



Нужно сделать класс PHP, который на вход получает ссылку на страницу и валидирует контент на ней в 3 форматах: Microdata, RDFa, JSON-LD.



По-идее эта задача решается за 150 строк кода, если использовать метод "DOMDocument::schemaValidateSource". Он использует нотацию с https://schema.org/ для валидации кода. По-идее такое же решине должно быть и для JSON-LD.



Всего нужно валидировать 28 форматов перечисленных в левой колонке https://developers.google.com/search/docs/data-types/article.



На выходе нужно получить массив со следующими возможными ошибками:

1) Разметка не найдена.

2) Разметка найдена, но её тип не из списка https://developers.google.com/search/docs/data-types/article.

3) Ошибка валидации разметки (Например указан тип DateTime, а там число.)

4) Отсутстве обязательных или рекомендованных данных из https://developers.google.com/search/docs/data-types/article



Для парсинга нужно использовать Symfony/DomCrawler.
Категория