Snapshot OVH bloqué sur un VPS : diagnostiquer la panne et rétablir l’accès via l’API

Les sauvegardes automatiques sont une excellente pratique sur un VPS : elles sécurisent vos données et vous permettent de revenir rapidement en arrière en cas de mauvaise manipulation. Mais il arrive qu’un snapshot (backup “snapshot” planifié) se bloque et, dans certains cas, que cela dégrade fortement les performances du serveur au point de rendre la machine inaccessible, aussi bien en web qu’en SSH.

C’est exactement le scénario que j’ai rencontré récemment : un VPS OVH avec un snapshot automatique quotidien. Un vendredi, le snapshot est resté bloqué, la réalisation de la sauvegarde a duré presque 24 heures, et les services sont devenus injoignables. Après ouverture d’un ticket, OVH a confirmé le diagnostic et a partagé une méthode simple pour débloquer la situation, notamment en annulant l’opération de snapshot en cours via l’API. Dans cet article, je vous explique comment reconnaître ce type d’incident et appliquer la procédure pour retrouver un serveur opérationnel.

Comprendre le problème : quand un snapshot “sature” le VPS

Un snapshot peut solliciter intensément les ressources d’un serveur, en particulier l’I/O disque. Si votre VPS n’a pas beaucoup de marge en CPU, RAM ou débit disque, l’opération peut monopoliser les ressources et provoquer un effet domino :

D’abord, les temps de réponse augmentent. Ensuite, les services web se mettent à timeouter. Enfin, l’accès SSH devient instable ou impossible. De l’extérieur, on a l’impression d’une panne totale, alors que le serveur tourne parfois encore mais n’arrive plus à traiter correctement les requêtes.

Dans mon cas, OVH a confirmé que la réalisation du backup avait pris quasiment 24 heures. Une durée anormalement longue est un bon indicateur : si un snapshot dépasse largement la fenêtre habituelle, il est probable qu’il soit bloqué, ralenti par une contention disque, ou qu’il consomme trop pour que le VPS reste utilisable.

Identifier rapidement un snapshot bloqué dans l’interface OVH

Dans l’interface d’administration OVH, un snapshot en cours est en réalité assez simple à repérer, à condition de savoir où regarder. Lorsque la sauvegarde automatique démarre, le statut du VPS ne reste pas sur “actif” : il passe explicitement sur “backup”. Ce changement de statut est visible directement dans le manager OVH et constitue un indicateur fiable qu’une opération de snapshot est en cours.

Tant que ce statut “backup” est affiché, le VPS peut subir une forte dégradation de performances. Selon la charge et les ressources disponibles, cela peut se traduire par un simple ralentissement, mais aussi par une indisponibilité complète des services web et de l’accès SSH. Dans certains cas, le serveur semble totalement figé alors qu’il est en réalité saturé par l’opération de sauvegarde.

Un point important à connaître est qu’il est impossible de redémarrer la machine depuis l’interface OVH tant que le backup est en cours. Les actions de type “restart” ou “reboot” sont bloquées lorsque le VPS est dans l’état “backup”. Cela empêche toute tentative de récupération classique via le manager et peut donner l’impression que le serveur est définitivement bloqué.

Ce comportement est normal du point de vue de l’infrastructure OVH, mais il peut être déroutant si l’on n’a pas l’habitude. Le statut “backup” permet justement de distinguer une panne système classique d’un blocage lié à une opération de snapshot. Si ce statut persiste anormalement longtemps, notamment sur plusieurs heures ou près d’une journée complète, cela indique généralement que la sauvegarde consomme excessivement les ressources du VPS ou qu’elle est bloquée.

Dans ce contexte précis, attendre indéfiniment n’est pas toujours la meilleure option. Lorsque le snapshot empêche toute interaction avec la machine et bloque les redémarrages depuis l’interface, l’annulation manuelle de l’opération via l’API OVH devient alors la solution la plus efficace pour reprendre le contrôle du serveur.

La réponse OVH : les actions recommandées avant d’annuler le snapshot

OVH a d’abord rappelé un point important : une sauvegarde peut “puiser trop sur les ressources d’un serveur”. Avant de passer à l’annulation via l’API, ils proposent généralement des actions de diagnostic et de remise en état, qui peuvent suffire à relancer une situation saine :

1) Désactiver puis réactiver l’agent QEMU

Dans le cadre du diagnostic, OVH nous a recommandé de désactiver puis de réactiver l’agent QEMU, également appelé QEMU Guest Agent. Cet agent facilite certaines opérations entre l’hyperviseur et la machine virtuelle, notamment lors des snapshots. Dans certains cas, sa réinitialisation permet de débloquer une opération de sauvegarde ou de rétablir un fonctionnement plus stable du VPS.

Cette manipulation s’effectue directement sur le serveur et nécessite donc un accès SSH. Elle est applicable uniquement lorsque le VPS reste accessible, même partiellement. Si le serveur est totalement bloqué par un snapshot en cours et que l’accès SSH est indisponible, cette étape ne peut pas être mise en œuvre.

Lorsque l’accès au serveur est possible, la première étape consiste à vérifier l’état du service QEMU Guest Agent :

systemctl status qemu-guest-agent

Si le service apparaît comme actif, OVH recommande dans un premier temps de l’arrêter :

systemctl stop qemu-guest-agent

Il est ensuite conseillé de le désactiver temporairement afin d’empêcher son redémarrage automatique :

systemctl disable qemu-guest-agent

Après quelques instants, l’agent peut être réactivé afin de repartir sur un état propre. La réactivation se fait en deux étapes :

systemctl enable qemu-guest-agent
systemctl start qemu-guest-agent

Une fois l’agent QEMU réactivé, il est recommandé d’attendre quelques minutes et d’observer si l’opération de sauvegarde se débloque ou si le VPS retrouve un comportement normal. Cette étape permet de vérifier si le blocage était lié à une anomalie temporaire de l’agent.

Dans le cas où le statut du VPS reste affiché sur “backup” dans l’interface OVH, et que l’accès SSH devient impossible, cette méthode atteint ses limites. Lorsque le snapshot empêche également le redémarrage depuis le manager OVH, la poursuite du diagnostic passe alors par l’annulation manuelle de l’opération de snapshot en cours via l’API OVH, seule solution permettant de reprendre le contrôle du serveur.

2) Modifier l’horodatage du backup automatique

Deuxième recommandation : changer l’heure d’exécution du backup automatique. C’est une mesure préventive et corrective à la fois. Préventive, car vous pouvez placer la sauvegarde sur un créneau où la charge est faible. Corrective, parce que si l’opération se lance systématiquement à un moment de forte activité (jobs cron, imports, pics de trafic), vous augmentez les risques de saturation.

Idéalement, choisissez une fenêtre creuse réelle, et évitez les moments où vous faites déjà des tâches I/O intensives (rotations de logs, sauvegardes applicatives, import de catalogue, traitement d’images, etc.).

La solution efficace : annuler un snapshot en cours via l’API OVH

Si les actions précédentes ne suffisent pas, OVH indique une méthode directe : annuler l’opération de snapshot en cours via l’API. C’est souvent l’étape clé lorsque le snapshot est “coincé” et qu’il empêche le VPS de respirer.

Voici la procédure telle qu’OVH l’a communiquée.

1) Ouvrir la console API OVH

Rendez-vous sur la page de la console API OVH :

Console API OVH : endpoint abortSnapshot

Cette page correspond à l’endpoint permettant d’annuler un snapshot en cours sur un VPS.

2) Se connecter

Sur la console API, vous devez vous authentifier via le bouton “login” en haut à droite. Sans cette authentification, vous ne pourrez pas exécuter l’appel API sur votre service.

3) Renseigner le serviceName

Dans le champ serviceName, indiquez le nom de votre VPS tel qu’il apparaît dans votre espace client OVH. C’est l’identifiant du service sur lequel vous souhaitez interrompre le snapshot.

4) Exécuter l’appel POST d’annulation

Cliquez ensuite sur “execute” pour lancer la requête. Si le snapshot en cours est annulable, l’opération doit permettre de stopper la sauvegarde qui monopolise les ressources.

En pratique, c’est souvent ce qui débloque la situation quand le VPS est devenu injoignable. Une fois l’opération d’annulation effectuée, vous récupérez généralement une machine à nouveau réactive, ou au moins redémarrable proprement.

Après l’annulation : redémarrer le VPS et vérifier les services

OVH a également confirmé un point classique : un redémarrage du VPS peut rétablir les services, notamment après une phase de surcharge prolongée. Une fois le snapshot annulé, redémarrez le VPS depuis l’interface OVH si nécessaire, puis vérifiez progressivement :

Commencez par tester l’accès SSH, puis validez l’état du web (HTTP/HTTPS), et enfin contrôlez vos services critiques (base de données, cache, workers, files d’attente). Si vous avez un reverse proxy ou un CDN, pensez aussi à valider que la panne venait bien du VPS et non d’un autre maillon.

Si vous observez des lenteurs persistantes après redémarrage, cela peut indiquer un système de fichiers en vérification, une reprise d’indexation, ou des services qui redémarrent en cascade. Laissez quelques minutes, puis analysez la charge et les logs dès que l’accès est rétabli.

Prévenir la récidive : bonnes pratiques autour des snapshots

Une fois l’incident résolu, l’objectif est d’éviter de revivre le même blocage. Sans surcharger en listes, retenez surtout une idée : un snapshot doit rester dans une fenêtre maîtrisée et ne pas mettre votre serveur à genoux.

En pratique, ajustez l’horaire de la sauvegarde automatique, évitez les périodes de charge, et assurez-vous d’avoir un minimum de marge sur les ressources, notamment le disque. Si votre VPS est souvent “à la limite”, une simple sauvegarde peut devenir l’opération de trop.

Enfin, gardez à l’esprit qu’un snapshot n’est pas toujours une stratégie complète de sauvegarde applicative. Selon vos besoins, vous pouvez compléter avec des sauvegardes côté applicatif (dump base de données, exports, sauvegarde des fichiers critiques) sur un stockage externe, afin de réduire la pression et de mieux contrôler les fenêtres de backup.

Ce qu’il faut retenir pour débloquer rapidement un VPS OVH

Quand un snapshot automatique s’éternise et rend un VPS inaccessible, le plus important est d’agir méthodiquement : tenter les actions de remise en état (agent QEMU, modification de l’horaire), puis, si nécessaire, annuler le snapshot en cours via l’API OVH grâce à l’endpoint “abortSnapshot”. Une fois l’opération stoppée, un redémarrage permet généralement de récupérer les services, puis de remettre en place des ajustements pour éviter que le backup ne monopolise à nouveau les ressources.

Si vous gérez plusieurs VPS, gardez ce lien de console API à portée de main : dans ce type de panne, c’est souvent la manœuvre la plus rapide pour sortir d’un blocage et rétablir l’accès.