Архив: Парсер pdf, fb2, doc, txt
Бюджет
60$
в месяц
Создан: 7 лет назад
Закрыт
- Описание
- вид:
Форма:
1. поле ввода названия
2. ниже поле ввода текста
3. ниже поле для загрузки файла.
4. Ниже кнопка "отправить".
Механизм:
Человек вводит текст в поле ввода, либо загружает файл формата txt, pdf, doc или fb2. нажимает отправить.
дальше следует проверка:
введен или текст или файл. Если и то и другое - сообщение об ошибке, поля отчищаются.
Если введён текст стандартная проверка от возможных скриптов тегов и всякой фигни... После чего исходный текст сохраняется в файл .тхт в какой нибудь папке (допустим папка "original_txt" ). Название самого файла .тхт должно содержать: логин пользователя, затем нижнее тиры (_), затем уникальный идентификатор (чтобы не получилось двух файлов с одним и тем же названием), затем .txt .
В папке (допустим json_txt) Создается новый json файл в которые вносится этот текст в виде массива слов разбитый по всем пробельным символам.
Если стоит знак припинания он привязывается к слову которое стоит перед ним. Я уточняю для того чтоб такие знаки препинания как тире, плюс, минус, равно и т.д. которые с обоих сторон отделены пробелом также привязывались к слову. Цыфры или слова «и, или, а…» привязываться не должны.
название файла json идентично файлу .txt (логин пользователя, затем нижнее тиры (_), затем уникальный идентификатор)
В таблицу базы данных mysql ( Название таблицы user_sr_text ) вносится запись. строка 1 - id; строка
2 - user_id ( идентификатор пользователя берется из session);
строка 3 - Название из поля формы;
строка 4 - путь к файлу .txt ;
строка 5 - путь к json файлу;
строка 6 - дата;
Если загружен файл определить тип файла, если не txt, doc, pdf, fb2, сообщение об ошибки, остановка скрипта.
Если норм сохранить файл в папке ( допустим origilal_notes).
Пропарсить файл вытащить из него весть текст кроме номера страниц.
Рисунки вытащить в отдельную папку. Если есть текстовое бозначения рисунков ( Обычно идет под самим рисунком, пример: рис.1 колесо) также вытащить отдельно от текста, в последующем они будут сохранены в базу данных.
С текстом делаем все тоже самое что и в первом случае ( когда текст просто был записан в форму). Незабудьте проверку на скрипты и теги.
Картинки сохраняются в отделоной папке ( скажем img_for_txt) название латинская буква + уникальный идентификатор (так чтоб не было двух картинок с одинаковым названием). В БД mysql в отдельную таблицу (img_txt) вносим:
строка 1 - id;
строка 2 - id_text (сюда вносится id из первой таблицы user_sr_text);
строка 3 - путь к картинке;
строка 4 - описание картинки (пример: рис.1 колесо);
Часть текста не влазит, кто заинтересован допишу в лс....
- Категория