Архив: Смэтчить данные (найти наиболее похожие друг на друга данные)

Бюджет По договоренности
Создан: 6 лет назад
Закрыт
Описание
Часть 1. Метчинг анализовЧто нужно сделать?Найти одинаковые анализы среди списков анализов 5 разных лабораторийСколько это данных?5 лабораторий, у каждой лаборатории ~1500 анализов. Данные, которые доступны про каждый анализ: название + биоматериал. Что такое одинаковые анализы?Необходимое условие:Биоматериалы анализов совпадают, т.е., например, анализы являются одинаковыми, если их биоматериалом является сыворотка крови или кровь с ЭДТА.  Примечание 1: есть одна лаборатория (CMD), у которой не прописано, что это точно за биоматериал, а прописано только общими словами, например, кровь (в случае с этой лабораторией достаточно совпадения биоматериала с точностью до смысла, т.е. ”кровь” = ”кровь с ЭДТА” или ”кровь” = ”кровь с натрием”)Примечание 2: биоматериалы у разных лабораторий могут называться по-разному, например, ”кровь с ЭДТА” или ”кровь (ЭДТА)”, но у одной лаборатории названия одинаковых биоматериалов идентичны (я понимаю, что очень легко было привести к единому виду в excel, но у меня как назло полетел офис)Достаточное условие:а) анализы, называющиеся одинаковоб) анализы, называющиеся немного по-разному, но обозначающие одно и то же Примеры одинаковых анализов:1) Антитела к кардиолипину (Anticardiolipin antibodies) класса IgM, сыворотка крови
2) Антитела к кардиолипину IgM (Антикардиолипиновые антитела IgM, АКЛ IgM, Cardiolipin Antibodies IgM, aCL antibody IgM, APAs IgM), кровь3) Антитела к кардиолипину, IgM, сыворотка крови1) Исследование соскобов с шейки матки и цервикального канала, мазок2) Исследование соскобов шейки матки и цервикального канала (Examination of Scrapings: Cervix and Cervical Canal ), мазок из влагалища1) Кобальт (моча), моча2) Кобальт в моче (Cobalt), мочаКак предполагается искать одинаковые анализы?Поиск конкретных методы метчинга всегда ваш выбор, но мне кажется, что наиболее эффективно делать следующим образом: искать по словам и/или символам те, которые максимально друг с другом совпадают, а далее руками проверять, действительно ли они одинаковыеВ каком формате хочется увидеть результат?https://docs.google.com/spreadsheets/d/1I9qBzMNoUzLd5WXuo6J1LA70mDEKVVlCaYbkzjfmjQw/edit?usp=sharingЧто является критерием достижения результата?1) Я бы хотела, чтобы ~70% анализов каждой лаборатории было найдено соответствие хотя бы в двух лабораториях. При этом, этот процент может меняться от лаборатории к лаборатории. Например, у одной лабы ~500 видов анализов, поэтому совершенно точно для 90% можно найти соответствующий хотя бы в одной лаборатории.У другой лаборатории ~2500 анализов, поэтому логично, что иметь соответствия будут вряд ли более 70% анализов2) Хотя бы для 400 анализов найдено соответствие во всех 5 лабораторияхЭто примерные критерии, которые я выделила, исходя из тех данных, которые видела. Если у вас получится лучше - очень круто, если, наоборот, зайдете в тупик на меньших процентах - присылайте данные, посмотримЧасть 2. Метчинг чек-аповЧто такое чек-апы?Это, так называемые, ”комплексные проверки”: паки из нескольких анализов (обычно 10-20), которые клиент сдает единоразово 
Сколько это данных?5 лабораторий, у каждой лаборатории ~50-100 чек-апов, каждый чек-ап состоит  ~ из 7-15 анализов. 
Что нужно сделать?Найти все чек-апы, которые совпадают хотя бы на 60% и указать процент совпаденийКак это сделать?Взять чек-апы одной лаборатории за начало отсчета и найти в каждой лаборатории все чек-апы, совпадающие с данным миниум на 60% ( = содержащие хотя бы 60% одинаковых анализов). Одинаковые анализы определяются из части 1. В каком формате хочется увидеть результат?https://docs.google.com/spreadsheets/d/1I9qBzMNoUzLd5WXuo6J1LA70mDEKVVlCaYbkzjfmjQw/edit?usp=sharing
Категория

Похожие проекты

safe$44
49 1
Трипланарная транспортная задача (отправители - транспорт - получатели) генерация исходных данных трехэтапное решение 1....
safe$67
148 6
Здравствуйте, мне нужно сделать скрипт или программу для видео, чтобы программа выполняла определённую цель. Это возможно сделать?...
safe$33
127 1
На сайте, разработанном на Tilda, цены товаров указаны в долларах США. Необходимо, чтобы в Корзине стоимость товара тоже оставалась в долларах, но после оплаты сумма должна автоматически конвертироваться в другую валюту (с выводом результата) и направляться в платежную систему Cloud Payments.   Результат......
 
90 1
Необходимо разработать и прописать макросы в программе, чтобы при вводе или отрисовке лекал одного размера, программа создавала автоматически такие же лекала только с градацией по размерам....
safe 
58 2
Оптимизация управления оборотными средствами с помощью безрисковых инструментов (депозитов, кредитов)". Требования по исследованию операций:. 1)Аналитический обзор работ по теме. 2)Разработка программы с использованием средств IBM ILOG CPLEX! 3)Тестирование программы на различных исходных данных для......
safe 
84 1
Здравствуйте! Требуется помощь в установке и настройке поискового движка Elasticsearch или Sphinx для локального поиска и получения наименования файла по наиболее релевантному содержимому. Поиск будет производиться по базе порядка 50000 файлов. В каждом файле порядка 5000. 20000 строк. Задача - производить......
$28
155 1
Нужно сделать 4 лабораторные работы по цифровой обработке сигналов на такие темы:. Дискретизация и восстановление непрерывных сигналов. Спектр дискретизированного сигнала (5 заданий). Характеристики линейных цепей. Прохождение сигналов через линейные цепи (4 задания). Цифровые фильтры. Проектирование......
 
107 0
Всем привет,. Требуется переделать программный код. https://sourceforge. net/projects/freetype/files/freetype/1. 1/freetype-1. zip/download. и создать из него две программы под Windows (если вы можете не переделывать, а написать оригинальный, то еще лучше). 1) первая принимает в командной строке имя......
 
61 2
Необходимо разработать Grpc Service для управления пользователями. Авторизация, регистрация, CRUD, логирование действий. Proto файл предоставлю, модель БД (PGSQL), и тимплейт для логики разработки - тоже....
safe$625
84 1
Имеется VNC сервер, написанный на языке СИ. В настоящее время имеются некоторые проблемы в его работе, а именно при подключении клиента к серверу в окне вьювера разные браузеры ведут себя по-разному. То есть в одном браузере всё корректно работает. В другом браузере запуск корректный, но не корректно......
 
64 2
Нужно разобраться с с++ open source приложением (приложение для майнинга на CPU), нужно вытащить код формирования хэша и скомпилировать его отдельно. Он нужен для проверки блоков. Это срочная задача. Для её выполнение нужны знание ассемблера и отпимизация современных процессоров, знание криптоалгоритмов.......
safe 
155 3
Задание заключается в следующем. Нужен бот для сайта https://wax. atomichub. io/, который сможет по заданным настройкам покупать предметы ниже определенной стоимости, если на маркете появляется предмет с ценой ниже заданной, то этот товар приобретется автоматически. Это должно происходить в считанные......
safe 
97 1
One of the largest projects in the IT field, starts recruiting specialists from 48 countries: Australia, Austria, Armenia, Belgium, Brazil, Bulgaria, Great Britain, Hungary, Germany, Greece, Denmark, Egypt, Israel, India, Indonesia, Ireland, Spain, Italy , Canada, China, Mexico, Monaco, Malaysia, Nepal,......
safe 
154 2
Нужен парсер ключей и частотностей этих ключей из Вконтакте. Программа должна собирать частотности из заданного списка ключевых слов по заданным настройкам, собирать похожие запросы на заданную глубину (похожие, похожие похожих и т. Пишите где сможем оперативно общаться Предлагайте цену и сроки. Без......
$113
247 5
Надо написать программу упаковки/распаковки чисел. Задание и алгоритм вышлю на почту. Стоимость 3 000 грн. Оплата после проверки. Срок около недели....
$875
54 3
Необходимо разработать обертку для интеграции с easysms на Java (Spring). Реализовать 2 метода: отправка сообщения и получение статуса отправки. Вписаться в существующее приложение, поддерживающее несколько провайдеров. Документация и исходный проект прилагается....
safe$313
96 4
Требуется создать бота, который будет ставиться на сервер для быстрой покупки и продажи криптовалют на разных биржах. Главная задача реализовать работу бота так,чтобы он максимально быстро покупал по заданному диапазону цены крипту....
 
179 6
Нужно написать авторизацию на C++, которую нельзя будет обойти в 1 jmp инструкцию. Работать должно на Windows 10 x64 и не с использованием qt. Авторизация должна изменять страницу в приложении. Так же могу дать приложение где надо это будет сделать....
 
57 1
Нужно сделать плагин для PhotoShop,  который устанавливается в фотошоп (работая с разными версиями PS) для MacOS и Windows. Плагин это ретушерская панель, которая состоит из кнопок, который обращаются к операциям ФШ или каскаду операций. Помимо самого плагина, нужно встроить ежемесячную оплату по подписке......
Смотреть все