На пользовательском сервере, под управлением VMware технологий и операционной системой Windows 7, периодически начались появляться «тормоза системы».
Выявление причины
Проблема появлялась в определенное время, что помогло локализировать и сузить круг поиска «виновника торжества». Ним оказался зависший снапшот («снимок» диска в определенный момент времени, в том числе регистров процессора, состояний блоков оперативной памяти), который необходим для системы резервного копирования VeemBackup (один из продуктов для создания «бекапов» виртуальных машин).
Все заключалось в том, что как раз «снапшот», который должен удаляться после того, как его получит Veem, зависал. Как следствие, Veem начинал циклически пытаться его считать и удалить, но из-за ошибки, удаление не происходило. Приоритетность процессов Veem равна стандартному или высокому. Следовательно, запросы чтения-записи к жесткому диску идут на уровне приоритета системы.
Количество таких запросов при «зависшем снапшоте» равно бесконечности, а «медленные» жесткие диски просто не в состоянии обеспечить обработку такого количества запросов наряду с запросами, которые идут от профилей пользователей.
В следствии получается ситуация, что очередь чтения-записи у жесткого диска становиться переполненной, и уже из-за этого начинаются «тормоза системы».
Решение
Возможно несколько вариантов решения данной проблемы:
- ручное удаление «зависшего снапшота».
- рестарт VMware агента и отменой задания при подключении непосредственно к гипервизору.
Если не помогает, т.е. снапшот раздулся до таких размеров, что не осталось места, то только выключением «виртуалки», перезагрузкой гипервизора и удалением «снапшота»( однако будьте осторожны, удаление руками может не помочь и тогда прийдется удалять файлы снапшота на датасторе).
После совещания всей нашей команды, было принято решение заменить проблемный физический жесткий диск на более скоростной SSD накопитель. После проведения монтажа нового накопителя, данная проблема пропала.
По результатам поиска информации по данной проблеме, стало ясно, что «зависшие снапшоты» все же удаляются, но только по истечению определенного времени, а SSD-накопитель позволил повысить скорость обработки данных, чтобы «зависший снапшот» не влиял на качество и скорость работы сервера.