Архив: Анализ данных в R studio

Бюджет 42$ / 2500
руб
в месяц
Создан: 7 лет назад
Закрыт
Описание
Excercise 1 
I. Scraping structured data – volcanoes

Scrape the list of all volcanoes in one data frame (1000 till 6000 metres) en.wikipedia.org/wiki/Lis... Comment on what you are doing. (15% of the evaluation – 7% code & 8% comments)

Remove additional text after hyphen (e.g.,  Highest active volcano on Earth,  Highest volcano in Indonesia, etc.) in Location and Notes (10% of the evaluation – 5% code & 5% comments)

How many are there volcanoes? And what is the the mean and median height of volcanoes (in metres)? (10% of the evaluation – 5% code & 5% comments)

Check the frequency for each location and comment (10% of the evaluation – 5% code & 5% comments)

As you have noticed it is not ideal (how the location is given) for further analysis and should be improved for a good analysis. Give some explanation why it is still not in a good shape for further analysis and give some suggestions what can be improved (10% of the evaluation)

OK. But we would go further without any additional work on it since it would take more of our time. So use it as it is (though it is not ready for the analysis). Calculate max and min for each location (you can use aggregate function). Order them all from the highest to the lowest and comment on the results you have got (10% of the evaluation – 5% code & 5% comments)

Plot any 3 graphs you would like to (which would make sense of course) and describe them. Try to improve them as much as you can. Comment on what you are doing and on the results (25% of the evaluation – 10% code & 15% comments)

Now select volcanoes higher than 5500 metres.

how many volcanoes are there?

in which locations and how many of them are in each location?

Sort the locations from the highest frequncy to the lowest. Comment on what you are doing and on the results (10% of the evaluation – 5% code & 5% comments)

#your code
Excercise 2 
Since all students will be scraping in different time you will all probbaly get different results. Please iclude day and time you were doing your homework. You should also include the data frame of news you scraped in csv format as your homework. For saving csv file: write.csv(your data frame, Surname_Homework2) – it will be in your WD.
Scrape political news from the website www.mk.ru/politics/ Include title and text. You should scrape the four pages (I think it has max of four pages). In title and text: check there are no additional symbols. If there are any, you should remove them. Comment on what you are doing. Convert it to a data frame and save in csv format (20% of the evaluation – 10% code & 10% comments)

Now lets analyze data we have. Use the libary quanteda.

2.1. How many articles do we have? (5% – 3% code & 2% comments)

2.2 Check the number of types and tokens. Comment on what you are doing and on the results (10% of the evaluation – 5% code & 5% comments)

2.3. What are the top 20 most frequent words used in texts? You should remove stopwords (please note that you should indicate Russian langauge while removing stopwords: remove=stopwords(russian)) and do some preprocessing before anaylzing data. Comment on what you have done (20% of the evaluation – 10% code & 10% comments)

2.4.Draw a word cloud with about 20 to 40 top words used – color the word cloud. Please comment – what are the most frequntly used words (substantive words) and do you have some explanations for that? (if you dont know Russian – please try to translate the words you have so you understand them) (20% of the evaluation – 10% code & 10% comments)

2.5. What are the most frequntly used collocations? Use only 2 words. Order them from the most to least frequent. What are the most used collocations? Do you have some explanations for that? Comment on the results (to remove stopwords please use the command tokens_remove)
Категория

Похожие проекты

safe 
0 3
Необходимо разработать систему, которая: Подключается к API Diagnocat и iDent (через токены доступа). Получает данные о пациенте, результатах диагностики, снимках и назначениях. Автоматически формирует структурированный отчет по шаблону (включая врачей, этапы лечения, стоимость и описание процедур).......
 
0 0
Необходимо связать БД 1C:ERP с БД Outlook, MS Access, Битрикс24. Например при вводе нового сотрудника в 1С:ERP он должен автоматически появляться в вышеперечисленных БД....
2 месяца назад
 
0 1
Требуется реализация отчёта на кастомизированной 1С:УПП 1. 2, ТЗ и контрольный пример во вложении, 80% кода должно быть покрыто модульными тестами....
2 месяца назад
$7
0 1
Мне нужно копировать мой текст и вставлять в одну группу ВК с открытой стеной для публикации рекламы. Задача скрипта/сервиса/программы - примерно каждые 10 секунд брать мой текст и вставлять в эту группу. Я пробовал через одну программу, которая записывает действия мышки и потом повторяет, но она как-то......
4 месяца назад
safe 
0 0
Написать прошивку для A94B114, используя 2 подобные рабочие прошивки. Все файлы есть....
$21
0 2
Нужно разархивировать файл архив. ujems, есть распаковщик, но выдает ошибку. Прислать пруфы(скрины)....
7 месяцев назад
safe 
0 1
Входные: Имеется скрипт по обработке email писем и добавление их в систему Redmine   Проблема: Система обработки этих писем написана некорректная и негибкая    Задача: Переписать логику обработки входящих писем, чтобы исключить их потерю при незначительных отклонениях от ожидаемой структуры....
$37
0 1
- В обязанности сотрудника входит поддержание мобильного приложения системы автоматизации бизнеса. - Работа сдельная: задачи выдаются на оценку, далее после согласования передаются на реализацию. - Заключаем договор и NDA (соглашение о неразглашении)....
$71
0 0
Информация о проекте: Проект включает в себя React Native приложение с Expo внутри которого находится webview с сайтом На устройствах с ОС IOS проблема с воспроизведением видео....
7 месяцев назад
safe 
0 0
Разрабатываю десктопные программы на языке Java,  а так же Java + SQL....
 
0 6
  1. Чтобы можно было писать описание события (без заголовка) - превью в списке берется N количества букв с начала. (в списке писать дату события и сколько осталось до него) . Выставление даты и времени напоминания и ИНТЕРВАЛА ПОВТОРА ОТ 1 МИНУТЫ! Выставлять количество повторов, далее напоминания прекращаются.......
safe 
0 4
Сайт arg2028t. beget. tech/. Нужно сделать вот такой калькулятор. airprint. by/outdoor/wide-format. и еще некоторые доработки....
safe 
0 7
Краткое описание: Мы ищем исполнителя для тестирования функционала мобильного приложения на платформе Android. Задача включает проверку основных функций приложения, таких как работа комнаты, передача видео, звука и чата, а также создание подробной отчетности о найденных ошибках.   Требования к исполнителю:......
safe 
0 12
Разработка чат-бота под ваши нужды....
$143
0 0
Oпpocы (1008pyб/чaс) Заходитe на сaйт: gonsù....
10 месяцев назад
 
0 4
Требуется создать скрипт для premiere pro. Данная суть скрипта: в выделеном бине нужно что бы автоматически проставлялся in out ровно по серидине файла так что бы выделенная область была длиной 3 секунды. И требуется кнопка что бы работало через окно expressions. Проблема текущего в том что он не работает......
 
0 2
Нужно создать приложения под гемблинг/беттинг, на котлин. Приложение должно работать Firebase. Детали вышлю при обсуждение....
$21
0 4
Нужно разархивировать файл archive. ujems, есть распаковщик, но выдает ошибку. Прислать пруфы  ....
1 год назад
safe 
0 3
Разработать впн сервис ( Приложения на ios и android + сайт для оплаты подписки). Настройка Серверов. Оплата по договоренности. Работаем черед безопасную сделку....
1 год назад
Смотреть все