Вечером 31 января системный администратор компании GitLab, продвигающей одноименный сервис для хранения кода, случайно «облегчил» базу данных на 300 ГБ. В результате этих действий сервис перестал работать. Собственно, на момент написания этих строк GitLab остается в офлайне, а разработчики продолжают работы по его восстановлению.
Из-за ошибки оказалась стерта база, в которой содержались запросы на изменение документации и кода проектов пользователей, при этом их репозитории (хранилища) остались нетронутыми. Вскоре после инцидента представители GitLab стали публиковать всю информацию о восстановлении базы.
Системный администратор из Нидерландов, из-за которого возникла проблема, занимался копированием базы с одного сервера на другой и по ошибке запустил удаление данных с основного сервера. Когда этот процесс был остановлен, нетронутыми осталось только 4,5 ГБ данных.
В GitLab отметили, что в этом случае не помогла ни одна из пяти существующих в компании систем для хранения бэкапов: например, в одном из случаев процедура сохранения данных срабатывала с ошибкой, из-за чего бэкап не создавался. Представители сервиса заметили, что у них не было системы оповещения об ошибках при создании бэкапов.
В распоряжении GitLab оказался один из бэкапов, созданный вручную примерно за шесть часов до инцидента, и теперь компания восстанавливает данные с его помощью