Архив: Парсер pdf, fb2, doc, txt

Бюджет 60$ в месяц
Создан: 7 лет назад
Закрыт
Описание
вид:

Форма:

1. поле ввода названия

2. ниже поле ввода текста

3. ниже поле для загрузки файла.

4. Ниже кнопка "отправить".



Механизм:

Человек вводит текст в поле ввода, либо загружает файл формата txt, pdf, doc или fb2. нажимает отправить.



дальше следует проверка:

введен или текст или файл. Если и то и другое - сообщение об ошибке, поля отчищаются.



Если введён текст стандартная проверка от возможных скриптов тегов и всякой фигни... После чего исходный текст сохраняется в файл .тхт в какой нибудь папке (допустим папка "original_txt" ). Название самого файла .тхт должно содержать: логин пользователя, затем нижнее тиры (_), затем уникальный идентификатор (чтобы не получилось двух файлов с одним и тем же названием), затем .txt .



В папке (допустим json_txt) Создается новый json файл в которые вносится этот текст в виде массива слов разбитый по всем пробельным символам.



Если стоит знак припинания он привязывается к слову которое стоит перед ним. Я уточняю для того чтоб такие знаки препинания как тире, плюс, минус, равно и т.д. которые с обоих сторон отделены пробелом также привязывались к слову. Цыфры или слова «и, или, а…» привязываться не должны.



название файла json идентично файлу .txt (логин пользователя, затем нижнее тиры (_), затем уникальный идентификатор)



В таблицу базы данных mysql ( Название таблицы user_sr_text ) вносится запись. строка 1 - id; строка

2 - user_id ( идентификатор пользователя берется из session);

строка 3 - Название из поля формы;

строка 4 - путь к файлу .txt ;

строка 5 - путь к json файлу;

строка 6 - дата;



Если загружен файл определить тип файла, если не txt, doc, pdf, fb2, сообщение об ошибки, остановка скрипта.



Если норм сохранить файл в папке ( допустим origilal_notes).

Пропарсить файл вытащить из него весть текст кроме номера страниц.

Рисунки вытащить в отдельную папку. Если есть текстовое бозначения рисунков ( Обычно идет под самим рисунком, пример: рис.1 колесо) также вытащить отдельно от текста, в последующем они будут сохранены в базу данных.



С текстом делаем все тоже самое что и в первом случае ( когда текст просто был записан в форму). Незабудьте проверку на скрипты и теги.



Картинки сохраняются в отделоной папке ( скажем img_for_txt) название латинская буква + уникальный идентификатор (так чтоб не было двух картинок с одинаковым названием). В БД mysql в отдельную таблицу (img_txt) вносим:

строка 1 - id;

строка 2 - id_text (сюда вносится id из первой таблицы user_sr_text);

строка 3 - путь к картинке;

строка 4 - описание картинки (пример: рис.1 колесо);



Часть текста не влазит, кто заинтересован допишу в лс....
Категория