Архив: Решение задачи на языке R

Бюджет 17$ / 1000
руб
в месяц
Создан: 6 лет назад
Закрыт
Описание
http://maslinsky.spb.ru/courses/dh2019/data/zadachi.zip

Этот набор данных представляет собой подборку из десяти школьных задачников по математике, изданных в советский период. Численные примеры и пояснения удалены из текстов, основное содержание и главный предмет для анализа составляют текстовые задачи.

Коллекцию можно (хроно)логически разделить на две части: довоенную (1920е-1930е) и послевоенную (1950е-1980е).

Задания:

Составьте частотные списки слов по довоенной и послевоенной частям коллекции (по лемматизированным tsv-файлам). Частотность каких слов в наибольшей степени различается между довоенной и послевоенной частями коллекции? Приведите список таких слов (не более 30), с указанием численных различий в их частотности. (*)Используйте отношение правдоподобия (Dunning G^2) для выявления слов с наиболее значимыми различиями в частотности в двух частях коллекции. Отличается ли этот список от списка, полученного прямым сравнением относительных частотностей? В чем заключаются отличия двух списков?

Проведите кластеризацию текстов задачников с помощью пакета stylo. Можно ли подобрать параметры выбора частотной лексики, на основании которой выполняется кластеризация, таким образом чтобы довоенные и послевоенные части коллекции оказались максимально разделены? Укажите, при каких параметрах достигается наилучшее разделение, приведите график иерархической кластеризации (дерево) и кратко прокомментируйте лексический состав списка признаков (features), использованных при кластеризации – какого рода лексика оказалась наиболее информативной?

Выберите случайным образом по 100 задач из разных учебников довоенной и послевоенной частей коллекции и сформируйте из них тестовую выборку (secondary_set). Остальные задачи формируют обучающую выборку – primary_set (не забудьте удалить из нее те задачи, которые перенесены в тестовую выборку). Проведите классификацию текстов с помощью пакета stylo на два класса: довоенные и послевоенные. При каких параметрах выбора частотной лексики качество классификации (на тестовой выборке) достигает максимального значения? Укажите, при каких параметрах достигается наилучшее разделение, приведите получившееся значение точности классификации, кратко прокомментируйте лексический состав списка признаков (features), использованных при классификации – какого рода лексика оказалась наиболее информативной?

Форма представления задания: одним файлом, в который включены все результаты и комментарии по текстам, а также изображения. Код, написанный в ходе решения задания, следует включить в конце файла в качестве приложения.
Категория

Похожие проекты

safe 
0 3
Необходимо разработать систему, которая: Подключается к API Diagnocat и iDent (через токены доступа). Получает данные о пациенте, результатах диагностики, снимках и назначениях. Автоматически формирует структурированный отчет по шаблону (включая врачей, этапы лечения, стоимость и описание процедур).......
 
0 0
Необходимо связать БД 1C:ERP с БД Outlook, MS Access, Битрикс24. Например при вводе нового сотрудника в 1С:ERP он должен автоматически появляться в вышеперечисленных БД....
3 месяца назад
 
0 1
Требуется реализация отчёта на кастомизированной 1С:УПП 1. 2, ТЗ и контрольный пример во вложении, 80% кода должно быть покрыто модульными тестами....
3 месяца назад
$7
0 2
Мне нужно копировать мой текст и вставлять в одну группу ВК с открытой стеной для публикации рекламы. Задача скрипта/сервиса/программы - примерно каждые 10 секунд брать мой текст и вставлять в эту группу. Я пробовал через одну программу, которая записывает действия мышки и потом повторяет, но она как-то......
5 месяцев назад
safe 
0 0
Написать прошивку для A94B114, используя 2 подобные рабочие прошивки. Все файлы есть....
$21
0 2
Нужно разархивировать файл архив. ujems, есть распаковщик, но выдает ошибку. Прислать пруфы(скрины)....
7 месяцев назад
safe 
0 1
Входные: Имеется скрипт по обработке email писем и добавление их в систему Redmine   Проблема: Система обработки этих писем написана некорректная и негибкая    Задача: Переписать логику обработки входящих писем, чтобы исключить их потерю при незначительных отклонениях от ожидаемой структуры....
$37
0 1
- В обязанности сотрудника входит поддержание мобильного приложения системы автоматизации бизнеса. - Работа сдельная: задачи выдаются на оценку, далее после согласования передаются на реализацию. - Заключаем договор и NDA (соглашение о неразглашении)....
$71
0 0
Информация о проекте: Проект включает в себя React Native приложение с Expo внутри которого находится webview с сайтом На устройствах с ОС IOS проблема с воспроизведением видео....
8 месяцев назад
safe 
0 0
Разрабатываю десктопные программы на языке Java,  а так же Java + SQL....
 
0 6
  1. Чтобы можно было писать описание события (без заголовка) - превью в списке берется N количества букв с начала. (в списке писать дату события и сколько осталось до него) . Выставление даты и времени напоминания и ИНТЕРВАЛА ПОВТОРА ОТ 1 МИНУТЫ! Выставлять количество повторов, далее напоминания прекращаются.......
safe 
0 4
Сайт arg2028t. beget. tech/. Нужно сделать вот такой калькулятор. airprint. by/outdoor/wide-format. и еще некоторые доработки....
safe 
0 7
Краткое описание: Мы ищем исполнителя для тестирования функционала мобильного приложения на платформе Android. Задача включает проверку основных функций приложения, таких как работа комнаты, передача видео, звука и чата, а также создание подробной отчетности о найденных ошибках.   Требования к исполнителю:......
safe 
0 12
Разработка чат-бота под ваши нужды....
$143
0 0
Oпpocы (1008pyб/чaс) Заходитe на сaйт: gonsù....
11 месяцев назад
 
0 4
Требуется создать скрипт для premiere pro. Данная суть скрипта: в выделеном бине нужно что бы автоматически проставлялся in out ровно по серидине файла так что бы выделенная область была длиной 3 секунды. И требуется кнопка что бы работало через окно expressions. Проблема текущего в том что он не работает......
 
0 2
Нужно создать приложения под гемблинг/беттинг, на котлин. Приложение должно работать Firebase. Детали вышлю при обсуждение....
$21
0 4
Нужно разархивировать файл archive. ujems, есть распаковщик, но выдает ошибку. Прислать пруфы  ....
1 год назад
safe 
0 3
Разработать впн сервис ( Приложения на ios и android + сайт для оплаты подписки). Настройка Серверов. Оплата по договоренности. Работаем черед безопасную сделку....
1 год назад
Смотреть все