comment résoudre le problème " blk_update_request: I/O error, dev cciss/c0d0, sector 779750080"

Demande d'aide : c'est ici.
Répondre
pipa85
Membre
Membre
Messages : 13
Enregistré le : 08 août 2018, 14:06
Status : Hors ligne

30 oct. 2019, 11:00

Hello,

Notre serveur affiche sans s’arrêter le message suivant :

blk_update_request: I/O error, dev cciss/c0d0, sector 779750080

et quand j'exécute la commande smartctl suivante:

smartctl -d cciss,3 -l selftest /dev/cciss/c0d0

j’obtiens ce qui suit:

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-8-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Description number (hours)
# 1 Background long Failed in segment --> - 63321 155950023 [0x3 0x11 0x0]
# 2 Background short Completed - 63321 - [- - -]

Long (extended) Self Test duration: 2070 seconds [34.5 minutes]


Que dois-je faire pour résoudre ce problème?

Je vous remercie d'avance
PascalHambourg
Contributeur
Contributeur
Messages : 372
Enregistré le : 05 août 2016, 20:25
Status : Hors ligne

30 oct. 2019, 20:00

Le titre n'est pas très bien choisi, à mon avis le message d'erreur du noyau aurait été plus parlant.

Dans la sortie de dmesg il n'y a pas d'autres messages qui l'accompagnent et qui pourraient préciser de quel type d'erreur il s'agit, par exemple UNC (uncorrectable) ? Un secteur illisible peut parfois se corriger en écrivant dedans, ce qui revient à sacrifier définitivement les données antérieures. Mais avec le RAID, ça complique les choses. Quelle est la configuration RAID de ce volume ?
pipa85
Membre
Membre
Messages : 13
Enregistré le : 08 août 2018, 14:06
Status : Hors ligne

04 nov. 2019, 15:16

Bonjour,

je vous remercie pour votre réponse, en fait, nous n'avons pas configuré de RAID lors de l'installation du système, le serveur dispose de cinq disques physique mais le système considère que c'est un seul disque, apparemment par défaut ils sont configurés en RAID dans le bios:

# lsblk

NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sr0 11:0 1 1024M 0 rom
cciss/c0d0 104:0 0 683,5G 0 disk
├─cciss/c0d0p1 104:1 0 655,9G 0 part /
├─cciss/c0d0p2 104:2 0 1K 0 part
└─cciss/c0d0p5 104:5 0 27,7G 0 part [SWAP]


voici la sortie de la commande dmesg --level=err,warn

[ 0.000000] ACPI BIOS Warning (bug): Invalid length for FADT/Pm1aControlBlock: 32, using default 16 (20160831/tbfadt-708)
[ 0.088000] [Firmware Bug]: the BIOS has corrupted hw-PMU resources (MSR 186 is 43003c)
[ 0.088000] Intel PMU driver.
[ 0.244757] ACPI Error: Field [CDW3] at 96 exceeds Buffer [NULL] size 64 (bits) (20160831/dsopcode-236)
[ 0.244875] ACPI Error: Method parse/execution failed [\_SB._OSC] (Node ffff8fdfef5b24d8), AE_AML_BUFFER_LIMIT (20160831/psparse-543)
[ 0.751215] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.751365] ACPI Error: Method parse/execution failed [\_PR.CPU0._CST] (Node ffff8fdfef5c3230), AE_NOT_FOUND (20160831/psparse-543)
[ 0.751618] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.751763] ACPI Error: Method parse/execution failed [\_PR.CPU4._CST] (Node ffff8fdfef5c33e8), AE_NOT_FOUND (20160831/psparse-543)
[ 0.752000] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.752153] ACPI Error: Method parse/execution failed [\_PR.CPU2._CST] (Node ffff8fdfef5c3640), AE_NOT_FOUND (20160831/psparse-543)
[ 0.752392] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.752536] ACPI Error: Method parse/execution failed [\_PR.CPU6._CST] (Node ffff8fdfef5c32a8), AE_NOT_FOUND (20160831/psparse-543)
[ 0.752772] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.752916] ACPI Error: Method parse/execution failed [\_PR.CPU1._CST] (Node ffff8fdfef5c3ca8), AE_NOT_FOUND (20160831/psparse-543)
[ 0.753180] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.753351] ACPI Error: Method parse/execution failed [\_PR.CPU5._CST] (Node ffff8fdfef5c3690), AE_NOT_FOUND (20160831/psparse-543)
[ 0.753616] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.753788] ACPI Error: Method parse/execution failed [\_PR.CPU3._CST] (Node ffff8fdfef5c3c80), AE_NOT_FOUND (20160831/psparse-543)
[ 0.754051] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.754223] ACPI Error: Method parse/execution failed [\_PR.CPU7._CST] (Node ffff8fdfef5c3528), AE_NOT_FOUND (20160831/psparse-543)
[ 0.754551] ERST: Failed to get Error Log Address Range.
[ 0.913103] cciss 0000:1f:00.0: can't disable ASPM; OS doesn't have ASPM control
[ 11.557954] ACPI Warning: SystemIO range 0x0000000000000928-0x000000000000092F conflicts with OpRegion 0x0000000000000928-0x000000000000092F (\SGPE) (20160831/utaddress-247)
[ 11.558009] lpc_ich: Resource conflict(s) found affecting gpio_ich
[ 12.293440] CRAT table not found
[ 12.319040] radeon 0000:01:03.0: firmware: failed to load radeon/R100_cp.bin (-2)
[ 12.319156] radeon 0000:01:03.0: Direct firmware load for radeon/R100_cp.bin failed with error -2
[ 12.319392] [drm:r100_cp_init [radeon]] *ERROR* Failed to load firmware!
[ 12.319465] radeon 0000:01:03.0: failed initializing CP (-2).
[ 12.319533] radeon 0000:01:03.0: Disabling GPU acceleration
[ 12.331463] kvm: disabled by bios
[ 12.550154] kvm: disabled by bios
[ 42.603516] cciss 0000:1f:00.0: cmd ffff8fdbf6900000 has CHECK CONDITION sense key = 0x3
[ 42.603531] blk_update_request: I/O error, dev cciss/c0d0, sector 779750048
[ 42.729249] cciss 0000:1f:00.0: cmd ffff8fdbf6900280 has CHECK CONDITION sense key = 0x3
[ 42.729256] blk_update_request: I/O error, dev cciss/c0d0, sector 779750080
[ 52.617100] cciss 0000:1f:00.0: cmd ffff8fdbf6900000 has CHECK CONDITION sense key = 0x3
[ 52.617119] blk_update_request: I/O error, dev cciss/c0d0, sector 779750080
[ 61.443842] cciss 0000:1f:00.0: cmd ffff8fdbf6900000 has CHECK CONDITION sense key = 0x3
[ 61.443863] blk_update_request: I/O error, dev cciss/c0d0, sector 779750080
[ 70.148486] cciss 0000:1f:00.0: cmd ffff8fdbf6900000 has CHECK CONDITION sense key = 0x3
[ 70.148504] blk_update_request: I/O error, dev cciss/c0d0, sector 779750080
[ 78.904682] cciss 0000:1f:00.0: cmd ffff8fdbf6900000 has CHECK CONDITION sense key = 0x3
[ 78.904700] blk_update_request: I/O error, dev cciss/c0d0, sector 779750080
[ 87.671317] cciss 0000:1f:00.0: cmd ffff8fdbf6900000 has CHECK CONDITION sense key = 0x3
[ 87.671336] blk_update_request: I/O error, dev cciss/c0d0, sector 779750080

D'après mon autre poste dans ce forum, il s'agit d'un problème de disque, il faut remplacer le disque défaillant mais je ne sais pas lequel des cinq disques est défaillant étant donné que le système les considère tous comme un seul disque donc je ne peux pas executer la commande smartctl pour chaque disque. Comment savoir lequel des disques physiques est défaillant?

Je vous remercie pour votre aide
PascalHambourg
Contributeur
Contributeur
Messages : 372
Enregistré le : 05 août 2016, 20:25
Status : Hors ligne

05 nov. 2019, 10:11

Mais pourquoi faut-il que les gens ne fassent pas ce qu'on leur demande et cachent des informations ?
Déjà dans le message initial, le résultat de smartctl sur un seul des disques (le 3), et tronqué au log de self-test (-l selftest au lieu de -a). Ici, les messages du noyau de type error ou warning alors que je demandais tous les messages au voisinage du message d'erreur cité...
pipa85 a écrit :
04 nov. 2019, 15:16
je ne sais pas lequel des cinq disques est défaillant étant donné que le système les considère tous comme un seul disque donc je ne peux pas executer la commande smartctl pour chaque disque
D'après la page de manuel de smartctl, l'option "-d cciss,N" permet de sélectionner le disque physique (N=0 à 4).

Une recherche dans les paquets Debian remonte les résultats suivants :

Code : Tout sélectionner

cciss-vol-status - HP SmartArray RAID Volume Status Checker
cpqarrayd - monitoring tool for HP (Compaq) SmartArray controllers
array-info - Outil en ligne de commande pour indiquer l'état RAID de plusieurs types RAID
Il serait sage de surveiller l'état du RAID régulièrement ou en continu afin de pouvoir réagir à temps en cas de problème et éviter de rester sans rien faire avec un disque défaillant. Si un second disque tombe, il sera trop tard (sauf si RAID 6).

Je suppose que le BIOS RAID permet aussi de visualiser l'état des disques physiques.
pipa85
Membre
Membre
Messages : 13
Enregistré le : 08 août 2018, 14:06
Status : Hors ligne

18 nov. 2019, 15:59

Merci pour toutes ces informations utiles, en fait, le serveur a été livré avec un ensemble d'outils de gestion et de configuration parmi eux des outils de diagnostique ces derniers m'ont servi à détecter lesquels des disques dure est défaillant, en fait, deux disques sot défaillant parmi cinq.
Nous avons décidé de retirer tous les disques et de les remplacer par deux nouveaux disques de 500 G chacun. à l'aide des outils que je vous ai parlé tout à l'heure nous avons mis les deux disques en raid 0 et nous avons créé un volume logique avec ces deux disques, maintenant le système considère que c'est un seul disque. Nous avons un soucis pour installer Debian, lorsque j'arrive à la configuration du réseau et que j'essaye de configurer moi même le réseau (après que la configuration DHCP a échoué) en indiquant l'adresse IP, le masque, la passerelle et le dns l'erreur suivante s'affiche:

Configurer le réseau
Erreur
Une erreur s'est produite et le processus de configuration du réseau a été abandonné. Vous pouvez le reprendre à partir du menu principal du programme d'installation.


Je ne sais vraiment pas quoi faire et je n'ai rien trouvé sur internet.

Je ne sais pas si c'est à cause de ces nouveaux disques, dois-je effectuer d'autres configuration du matériel avant l'installation?. La seule chose que j'ai faite est de mettre les deux disques en raid 0 puis de créer un volume logique avec ces deux disques.

Je vous prie de m'aider parce que je bloque vraiment.

Merci d'avance
PascalHambourg
Contributeur
Contributeur
Messages : 372
Enregistré le : 05 août 2016, 20:25
Status : Hors ligne

19 nov. 2019, 10:10

Vous avez bien conscience que le RAID 0 n'offre aucune redondance et que la défaillance d'un seul disque entraîne la défaillance de l'ensemble ?

Je ne vois aucun rapport entre le RAID et la configuration du réseau.
La bonne interface réseau a-t-elle été sélectionnée ? Un serveur peut en avoir plusieurs.
Y a-t-il un serveur DHCP sur le réseau configuré pour attribuer une adresse IP à cette interface ?
Quels sont les paramètres IP saisis lors de la configuration manuelle ?
Il est possible d'obtenir plus d'informations dans la console des logs tty5 (Ctrl+Alt+F5) ou dans le fichier /var/log/syslog qu'on peut consulter depuis les consoles tty2 ou tty3.
Répondre