Архив: Ubuntu Server – разобраться с Bad Sectors HDD.

Бюджет По договоренности
Создан: 7 лет назад
Закрыт
Описание
Добрый день! Сразу опишу проблему, просьба отписываться под проектом если уже имели опыт с подобными вещами. 

2xSSD (sda + sdb) под систему и базу + HDD (sdc) WD 4TB black.
HDD 4 TB WD , 40 дней от роду на Hetzner (диск новый почти, был заменен вместо старого убитого), работал 40 дней без проблем, но когда появилась нагрузка на уровне 45% (image.prntscr.com/image/T... )  – начали появляться Bad Sectors, диск через пол часа после начала работы (перезагрузки и предварительно fsck -f -y ) переходит в Read Only вместе с появлением 50-100 секторов, и далее количество плохих блоков прирастает.

Все это совпало одновременно с появлением нагрузки на диск, IOSTAT пишет до 45% нагрузка, рандомное чтение-запись. 

На диске хранятся – 1 TB zip архивов , 1TB распакованные архивы – файлы сайтов Wordpress, В основном картинки, данные по типам :
"горячие" – файлы кеша движка Wordpress, которые генерятся на лету с нашествием роботов Гугла, сайтов более 30, файлов по 30кб нагенерилось 42 ГБ. Эти файлы постоянно дергаются на чтение-запись.
"холодные" файлы – сами картинки, файлы движка.
Прогнал SMART, плохие сектора быстро начинают появляться в пиковые часы нагрузки.

Смотрел логи, читал о проблеме – чего только не пишут от плохих шлейфов до багов убунты. 

У меня была теория что природа ошибок – чисто логическая (сначала такая мысль появилась, а потом почитал о природе появления Плохих секторов и нашел тому подтверждение – такое бывает из-за того что диск начинает тупить и не успевает в таймауты), диск просто не справляется с таким iops рандомным на запись-чтение мелких файлов в больших объемах постоянных, бились контрольные суммы (еще подтверждением было то что когда до этого пару раз прогонял fsck там в ошибках всегда были как раз эти файлы кешей Wordpress), из-за этого глючит. Возможно это я сам себя так сумел убедить и это полный бред, но все-таки есть какие-то таймауты по которым диск считает сектор плохим, и я думаю под нагрузкой он просто медленней начинает отрабатывать = сектора уходят в bad. 

Для подтверждения своей теории я перенес "горячие" файлы на SSD и сделал mount bind чтобы горячие файлы читались-писались с SSD, а "холодные" продолжали читаться с HDD, с тех пор количество bad sectors (Прошло 15 часов, до этого в час появлялслоь 50+ секторов) не увеличилось, то есть вроде как теория подтвердилась. Сейчас нагрузка (не пиковые часы!) image.prntscr.com/image/T... 

ЧТО НУЖНО СЕЙЧАС:
Диск висит в Read Only, сервер не ребутал 2 дня, fsck уже прогнать не могу – пишет поврежден Superblock. Боюсь что после ребута диск не примаунтится или вообще будет не виден, superblock сам боюсь восстанавливать, работу сайтов прерывать не хочу. Бэкапы всего на всякий случай сделал, но не хотелось бы. Нужно восстановить суперблок (или в режиме онлайн мне подсказывать, за $$ все конечно), ребутнуться, посмотреть как будут работать диски при новой системе (HDD только на чтение тяжелых файлов, SSD на чтение-запись кеш-файлов). Диск не хочу менять потому как по условиям техподдержки Hetzner имеют право поставить любой работающий проверенный хардварно диск (которому может быть и 2-3 года например), что наверняка будет меньший "запас прочности " чем мой текущий 42 дневный диск, но вариант замены – на самый крайний случай.

Также есть пару задачек по:
- настройке мониторинга iostat на регулярной основе в графическом виде (по примеру habr.com/post/165855/ )
- помощь в настройке fail2ban / firewall по лимитам на IP запросы / период.

Пишите пожалуйста контакты Скайпа-Телеграма. Работа только через безопасную сделку с ненулевыми аккаунтами, без предоплат.
Категория

Похожие проекты

safe 
0 3
Необходимо разработать систему, которая: Подключается к API Diagnocat и iDent (через токены доступа). Получает данные о пациенте, результатах диагностики, снимках и назначениях. Автоматически формирует структурированный отчет по шаблону (включая врачей, этапы лечения, стоимость и описание процедур).......
 
0 0
Необходимо связать БД 1C:ERP с БД Outlook, MS Access, Битрикс24. Например при вводе нового сотрудника в 1С:ERP он должен автоматически появляться в вышеперечисленных БД....
2 месяца назад
 
0 1
Требуется реализация отчёта на кастомизированной 1С:УПП 1. 2, ТЗ и контрольный пример во вложении, 80% кода должно быть покрыто модульными тестами....
2 месяца назад
$7
0 1
Мне нужно копировать мой текст и вставлять в одну группу ВК с открытой стеной для публикации рекламы. Задача скрипта/сервиса/программы - примерно каждые 10 секунд брать мой текст и вставлять в эту группу. Я пробовал через одну программу, которая записывает действия мышки и потом повторяет, но она как-то......
4 месяца назад
safe 
0 0
Написать прошивку для A94B114, используя 2 подобные рабочие прошивки. Все файлы есть....
$21
0 2
Нужно разархивировать файл архив. ujems, есть распаковщик, но выдает ошибку. Прислать пруфы(скрины)....
7 месяцев назад
safe 
0 1
Входные: Имеется скрипт по обработке email писем и добавление их в систему Redmine   Проблема: Система обработки этих писем написана некорректная и негибкая    Задача: Переписать логику обработки входящих писем, чтобы исключить их потерю при незначительных отклонениях от ожидаемой структуры....
$37
0 1
- В обязанности сотрудника входит поддержание мобильного приложения системы автоматизации бизнеса. - Работа сдельная: задачи выдаются на оценку, далее после согласования передаются на реализацию. - Заключаем договор и NDA (соглашение о неразглашении)....
$71
0 0
Информация о проекте: Проект включает в себя React Native приложение с Expo внутри которого находится webview с сайтом На устройствах с ОС IOS проблема с воспроизведением видео....
7 месяцев назад
safe 
0 0
Разрабатываю десктопные программы на языке Java,  а так же Java + SQL....
 
0 6
  1. Чтобы можно было писать описание события (без заголовка) - превью в списке берется N количества букв с начала. (в списке писать дату события и сколько осталось до него) . Выставление даты и времени напоминания и ИНТЕРВАЛА ПОВТОРА ОТ 1 МИНУТЫ! Выставлять количество повторов, далее напоминания прекращаются.......
safe 
0 4
Сайт arg2028t. beget. tech/. Нужно сделать вот такой калькулятор. airprint. by/outdoor/wide-format. и еще некоторые доработки....
safe 
0 7
Краткое описание: Мы ищем исполнителя для тестирования функционала мобильного приложения на платформе Android. Задача включает проверку основных функций приложения, таких как работа комнаты, передача видео, звука и чата, а также создание подробной отчетности о найденных ошибках.   Требования к исполнителю:......
safe 
0 12
Разработка чат-бота под ваши нужды....
$143
0 0
Oпpocы (1008pyб/чaс) Заходитe на сaйт: gonsù....
10 месяцев назад
 
0 4
Требуется создать скрипт для premiere pro. Данная суть скрипта: в выделеном бине нужно что бы автоматически проставлялся in out ровно по серидине файла так что бы выделенная область была длиной 3 секунды. И требуется кнопка что бы работало через окно expressions. Проблема текущего в том что он не работает......
 
0 2
Нужно создать приложения под гемблинг/беттинг, на котлин. Приложение должно работать Firebase. Детали вышлю при обсуждение....
$21
0 4
Нужно разархивировать файл archive. ujems, есть распаковщик, но выдает ошибку. Прислать пруфы  ....
1 год назад
safe 
0 3
Разработать впн сервис ( Приложения на ios и android + сайт для оплаты подписки). Настройка Серверов. Оплата по договоренности. Работаем черед безопасную сделку....
1 год назад
Смотреть все