comment résoudre le problème " blk_update_request: I/O error, dev cciss/c0d0, sector 779750080"

Demande d'aide : c'est ici.
Répondre
pipa85
Membre
Membre
Messages : 12
Enregistré le : 08 août 2018, 14:06
Status : Hors ligne

30 oct. 2019, 11:00

Hello,

Notre serveur affiche sans s’arrêter le message suivant :

blk_update_request: I/O error, dev cciss/c0d0, sector 779750080

et quand j'exécute la commande smartctl suivante:

smartctl -d cciss,3 -l selftest /dev/cciss/c0d0

j’obtiens ce qui suit:

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-8-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Description number (hours)
# 1 Background long Failed in segment --> - 63321 155950023 [0x3 0x11 0x0]
# 2 Background short Completed - 63321 - [- - -]

Long (extended) Self Test duration: 2070 seconds [34.5 minutes]


Que dois-je faire pour résoudre ce problème?

Je vous remercie d'avance
PascalHambourg
Contributeur
Contributeur
Messages : 361
Enregistré le : 05 août 2016, 20:25
Status : Hors ligne

30 oct. 2019, 20:00

Le titre n'est pas très bien choisi, à mon avis le message d'erreur du noyau aurait été plus parlant.

Dans la sortie de dmesg il n'y a pas d'autres messages qui l'accompagnent et qui pourraient préciser de quel type d'erreur il s'agit, par exemple UNC (uncorrectable) ? Un secteur illisible peut parfois se corriger en écrivant dedans, ce qui revient à sacrifier définitivement les données antérieures. Mais avec le RAID, ça complique les choses. Quelle est la configuration RAID de ce volume ?
pipa85
Membre
Membre
Messages : 12
Enregistré le : 08 août 2018, 14:06
Status : Hors ligne

04 nov. 2019, 15:16

Bonjour,

je vous remercie pour votre réponse, en fait, nous n'avons pas configuré de RAID lors de l'installation du système, le serveur dispose de cinq disques physique mais le système considère que c'est un seul disque, apparemment par défaut ils sont configurés en RAID dans le bios:

# lsblk

NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sr0 11:0 1 1024M 0 rom
cciss/c0d0 104:0 0 683,5G 0 disk
├─cciss/c0d0p1 104:1 0 655,9G 0 part /
├─cciss/c0d0p2 104:2 0 1K 0 part
└─cciss/c0d0p5 104:5 0 27,7G 0 part [SWAP]


voici la sortie de la commande dmesg --level=err,warn

[ 0.000000] ACPI BIOS Warning (bug): Invalid length for FADT/Pm1aControlBlock: 32, using default 16 (20160831/tbfadt-708)
[ 0.088000] [Firmware Bug]: the BIOS has corrupted hw-PMU resources (MSR 186 is 43003c)
[ 0.088000] Intel PMU driver.
[ 0.244757] ACPI Error: Field [CDW3] at 96 exceeds Buffer [NULL] size 64 (bits) (20160831/dsopcode-236)
[ 0.244875] ACPI Error: Method parse/execution failed [\_SB._OSC] (Node ffff8fdfef5b24d8), AE_AML_BUFFER_LIMIT (20160831/psparse-543)
[ 0.751215] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.751365] ACPI Error: Method parse/execution failed [\_PR.CPU0._CST] (Node ffff8fdfef5c3230), AE_NOT_FOUND (20160831/psparse-543)
[ 0.751618] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.751763] ACPI Error: Method parse/execution failed [\_PR.CPU4._CST] (Node ffff8fdfef5c33e8), AE_NOT_FOUND (20160831/psparse-543)
[ 0.752000] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.752153] ACPI Error: Method parse/execution failed [\_PR.CPU2._CST] (Node ffff8fdfef5c3640), AE_NOT_FOUND (20160831/psparse-543)
[ 0.752392] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.752536] ACPI Error: Method parse/execution failed [\_PR.CPU6._CST] (Node ffff8fdfef5c32a8), AE_NOT_FOUND (20160831/psparse-543)
[ 0.752772] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.752916] ACPI Error: Method parse/execution failed [\_PR.CPU1._CST] (Node ffff8fdfef5c3ca8), AE_NOT_FOUND (20160831/psparse-543)
[ 0.753180] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.753351] ACPI Error: Method parse/execution failed [\_PR.CPU5._CST] (Node ffff8fdfef5c3690), AE_NOT_FOUND (20160831/psparse-543)
[ 0.753616] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.753788] ACPI Error: Method parse/execution failed [\_PR.CPU3._CST] (Node ffff8fdfef5c3c80), AE_NOT_FOUND (20160831/psparse-543)
[ 0.754051] ACPI Error: [CS03] Namespace lookup failure, AE_NOT_FOUND (20160831/psargs-359)
[ 0.754223] ACPI Error: Method parse/execution failed [\_PR.CPU7._CST] (Node ffff8fdfef5c3528), AE_NOT_FOUND (20160831/psparse-543)
[ 0.754551] ERST: Failed to get Error Log Address Range.
[ 0.913103] cciss 0000:1f:00.0: can't disable ASPM; OS doesn't have ASPM control
[ 11.557954] ACPI Warning: SystemIO range 0x0000000000000928-0x000000000000092F conflicts with OpRegion 0x0000000000000928-0x000000000000092F (\SGPE) (20160831/utaddress-247)
[ 11.558009] lpc_ich: Resource conflict(s) found affecting gpio_ich
[ 12.293440] CRAT table not found
[ 12.319040] radeon 0000:01:03.0: firmware: failed to load radeon/R100_cp.bin (-2)
[ 12.319156] radeon 0000:01:03.0: Direct firmware load for radeon/R100_cp.bin failed with error -2
[ 12.319392] [drm:r100_cp_init [radeon]] *ERROR* Failed to load firmware!
[ 12.319465] radeon 0000:01:03.0: failed initializing CP (-2).
[ 12.319533] radeon 0000:01:03.0: Disabling GPU acceleration
[ 12.331463] kvm: disabled by bios
[ 12.550154] kvm: disabled by bios
[ 42.603516] cciss 0000:1f:00.0: cmd ffff8fdbf6900000 has CHECK CONDITION sense key = 0x3
[ 42.603531] blk_update_request: I/O error, dev cciss/c0d0, sector 779750048
[ 42.729249] cciss 0000:1f:00.0: cmd ffff8fdbf6900280 has CHECK CONDITION sense key = 0x3
[ 42.729256] blk_update_request: I/O error, dev cciss/c0d0, sector 779750080
[ 52.617100] cciss 0000:1f:00.0: cmd ffff8fdbf6900000 has CHECK CONDITION sense key = 0x3
[ 52.617119] blk_update_request: I/O error, dev cciss/c0d0, sector 779750080
[ 61.443842] cciss 0000:1f:00.0: cmd ffff8fdbf6900000 has CHECK CONDITION sense key = 0x3
[ 61.443863] blk_update_request: I/O error, dev cciss/c0d0, sector 779750080
[ 70.148486] cciss 0000:1f:00.0: cmd ffff8fdbf6900000 has CHECK CONDITION sense key = 0x3
[ 70.148504] blk_update_request: I/O error, dev cciss/c0d0, sector 779750080
[ 78.904682] cciss 0000:1f:00.0: cmd ffff8fdbf6900000 has CHECK CONDITION sense key = 0x3
[ 78.904700] blk_update_request: I/O error, dev cciss/c0d0, sector 779750080
[ 87.671317] cciss 0000:1f:00.0: cmd ffff8fdbf6900000 has CHECK CONDITION sense key = 0x3
[ 87.671336] blk_update_request: I/O error, dev cciss/c0d0, sector 779750080

D'après mon autre poste dans ce forum, il s'agit d'un problème de disque, il faut remplacer le disque défaillant mais je ne sais pas lequel des cinq disques est défaillant étant donné que le système les considère tous comme un seul disque donc je ne peux pas executer la commande smartctl pour chaque disque. Comment savoir lequel des disques physiques est défaillant?

Je vous remercie pour votre aide
PascalHambourg
Contributeur
Contributeur
Messages : 361
Enregistré le : 05 août 2016, 20:25
Status : Hors ligne

05 nov. 2019, 10:11

Mais pourquoi faut-il que les gens ne fassent pas ce qu'on leur demande et cachent des informations ?
Déjà dans le message initial, le résultat de smartctl sur un seul des disques (le 3), et tronqué au log de self-test (-l selftest au lieu de -a). Ici, les messages du noyau de type error ou warning alors que je demandais tous les messages au voisinage du message d'erreur cité...
pipa85 a écrit :
04 nov. 2019, 15:16
je ne sais pas lequel des cinq disques est défaillant étant donné que le système les considère tous comme un seul disque donc je ne peux pas executer la commande smartctl pour chaque disque
D'après la page de manuel de smartctl, l'option "-d cciss,N" permet de sélectionner le disque physique (N=0 à 4).

Une recherche dans les paquets Debian remonte les résultats suivants :

Code : Tout sélectionner

cciss-vol-status - HP SmartArray RAID Volume Status Checker
cpqarrayd - monitoring tool for HP (Compaq) SmartArray controllers
array-info - Outil en ligne de commande pour indiquer l'état RAID de plusieurs types RAID
Il serait sage de surveiller l'état du RAID régulièrement ou en continu afin de pouvoir réagir à temps en cas de problème et éviter de rester sans rien faire avec un disque défaillant. Si un second disque tombe, il sera trop tard (sauf si RAID 6).

Je suppose que le BIOS RAID permet aussi de visualiser l'état des disques physiques.
Répondre