Питон-разработка, нарезка фрагментов аудио из имеющегося файла по предлагаемому алгоритму

Бюджет 83$ / 5000
руб
в месяц
Создан: 3 года назад
На модерации
Описание
Имеется некоторый абзац в тексте (книга, интервью, лекция, подкаст, стендап и проч). Необходимо с большой точностью вырезать этот абзац из файла аудио, в котором звучит начитанный текст.
Предлагается закодировать следующий алгоритм:
1. находим время начала (а потом так же и конца) нужного абзаца, разделив индекс первой буквы Х на общую длину текста и умножив результат на продолжительность всего аудио.. это расчетное время, оно обычно максимум на полминуты не попадает в нужную точку аудио.
2. отмеряем от найденного времени по минуте назад и вперед, распознаем двухминутный фрагмент с помощью библиотеки питона или API, там почти точно содержится наш Х.
3. находим индекс (У) ближайшей совпадающей пары слов (порядковый номер первой буквы этой пары от начала двухминутки), но совпадающую пару ищем по оригинальному тексту от Х.. после нахождения определяем смещение У от Х по оригинальному тексту, вводим поправку на разницу количества знаков (в распознанной двухминутке и средней двухминутке оригинала),  находим скорректированный Х1 (внутренний индекс начала нужного фрагмента по отношению к началу двухминутки).. во избежание ошибки, связанной с возможным нахождением совпадающей пары в других участках франмента, ищим еще и влево от Х, добавляем условие, чтобы учитывалась только пара, стоящая в распознанном фрагменте после этой.
3. делим Х1 на число знаков в двухминутном распознанном фрагменте, потом результат умножаем на 120 (секунд в нем).. 
4. полученное время в секундах прибавляем ко времени начала двухминутки (это, как мы помним, самое первое расчетное время минус минута)
5. с полученным уточненным временем производим почти ту же операцию, но отложив уже не по минуте, а по пять секунд вперед и назад..
6. то же проделываем с концом фрагмента

нюанс – возможно, хоть и маловероятно, что Х не попадет в двухминутный, а потом в десятисекундный кусок..
на этот случай предлагаю в момент определения расстояния от Х до первой совпавшей пары прописать условие, по которому если это расстояние больше например 100 знаков или совпадение вообще не обнаруживается, то перейти к другому циклу, где диапазон первого поиска будет уже например 4 минуты, а второго 20 сек.. такое понадобится редко, но вдруг..

Прошу обращаться только в случае, если алгоритм полностью понятен.
Сумма окончательная, обсуждению не подлежит.
Предоплата не обсуждается.
Предпочтительна готовность к дальнейшей работе с фрагментами текстов (nltk, sql и проч).
Категория
Источник: fl.ru

Похожие проекты

safe$22
9 0
требуется готовую онлайн анкету на django по приему на работу перенести в whatsapp, telegram и viber. Нужно чтобы кандидат мог с удобством заполнять анкету с телефона, а все заполненные им данные по всем позициям автоматически загружались в нашу базу данных. В нашей базе будет создаваться резюме кандидата......
safe 
28 0
В наличии массив кадастровых номеров (КН), необходимо путем запроса на ПКК определить примерные географические координаты каждого объекта из массива КН (ОКС, ЗУ), вывести в результирующий файл эти ко-ты и ряд сопутствующих данных по этому КН....
1 год назад
safe 
44 1
Необходимо разработать бек и фронт мини-сервиса таким образом, чтоб его можно было развернуть внутри другого проекта....
safe$1111
23 0
Стоит на Бизнесе для своих нужд на простеньком базовом шаблоне, складываю туда контент потихоньку. Нужно начинать приводить в соответствие что бы публика сразу не убегала, а как то цеплялась, да и продвигать не торопясь. Шаблон где порвался от вставки баннеров подправить, для мобилок может сверстать.......
safe$22
55 0
Парсер для сайта stockx. com на питоне (selenium/pyppeteer). Необходим следующий функционал: 1. На главной странице с поиском по ключевым словам найти первый результат из поиска (ссылку на страницу товара) ....
1 год назад
safe$44
49 0
Трипланарная транспортная задача (отправители - транспорт - получатели) генерация исходных данных трехэтапное решение 1....
safe$1111
48 0
Требуется написать парсер маркетплейса, у которого есть только мобильное приложение (IOS, Android). Есть исходный код Android приложения (Java + Kotlin), реверснутый через JADX. Необходимо парсить данные о товарах, полученные по артикулу. За подробностями тг: @markermann)....
1 год назад
 
38 0
Требуется написать софт , который будет делать рассылку по личным сообщениям на площадке Ebay Kleinanzeigen по заранее спаршенным обьявлениям....
1 год назад
 
36 0
Требуется написать софт , который будет делать рассылку по личным сообщениям на площадке Ebay Kleinanzeigen по заранее спаршенным обьявлениям....
1 год назад
 
37 0
Требуется написать софт , который будет делать рассылку по личным сообщениям на площадке Ebay Kleinanzeigen по заранее спаршенным обьявлениям....
1 год назад
 
31 0
Требуется написать софт , который будет делать рассылку по личным сообщениям на площадке Ebay Kleinanzeigen по заранее спаршенным обьявлениям....
1 год назад
 
40 1
Требуется написать софт , который будет делать рассылку по личным сообщениям на площадке Ebay Kleinanzeigen по заранее спаршенным обьявлениям....
1 год назад
$22
59 1
В Геткурсе нужно сделать интеграцию со Сбербанком для оформления рассрочки/кредита. Основная задача – передача суммы и номера заказа при переходе для оформления рассрочки и возврат сведений при удачном оформлении. Эквайринг от Сбербанка к Геткурсу подключён, а готовой интеграции для рассрочки нет. Если......
1 год назад
 
96 0
Нужно сделать бот перехватчик заказов по фильтру такси Максим!...
1 год назад
$33
75 1
Как можно загрузить готовое фото из галереи, если приложение просит загрузить фото и при этом открывает камеру телефона? Нужно вместо использования реальной камеры смоделировать вход камеры и при этом загрузить фото из галереи....
1 год назад
 
117 3
Очень простой криптообменник в виде веб-сайта. Без смарт-контрактов и т. Все платежи вручную....
Смотреть все