¿Formatear SSD de sistema con errores?
#1
Hola compañeros,
 
La cuestión es si formatear el volumen estático de un SSD con bloques defectuosos es la forma adecuada de proceder para seguir usándolo.
 
La pregunta podría parecer algo insustancial y se podría responder simplemente aconsejándose la sustitución del disco sin más, pero encierra detalles que me parecen más que relevantes e interesantes de esclarecer, por lo que quería exponéroslo ya que por aquí estáis gente con amplios conocimientos y experiencia.
 
Lo primero: NAS TS-431P3, disco 1 (de sistema): Samsung SSD 870 EVO 2TB, dos HDD de mayor capacidad Toshiba N300, y una bahía libre.
 
El SSD está como volumen estático con un único volumen con el 100% del tamaño disponible.
 
Este disco contenía los datos principales, de uso y trabajo habitual, y en el backup que se realiza diariamente a uno de los HDD se produjeron errores de lectura, por lo que pasó a sólo lectura. Al parecer 6 bloques defectuosos que afectaron a unos cuantos archivos. Los datos los migré al otro HDD para seguir trabajando con normalidad, incorporando los ficheros ilegibles desde el último backup, o sea que no hubo pérdida de datos.
 
Me centro ahora en el problema del SSD: Comprobé que la estructura de archivos estaba bien pero la búsqueda de bloques con errores efectivamente confirmó el problema.
 
Lo recuperé de manera que volvió a estado “Preparado”, pero en Almacenamiento / Discos aparece en rojo indicando “Error” en el apartado “Historial de acceso al disco”, a pesar de que en “Información del disco” pone “Bueno” en verde.
 
En la información SMART aparecen todos los campos marcados como Buenos, en verde, pero se recoge igualmente el valor 6 en los campos 5, 179 y 183, por debajo del umbral que Samsung considera aceptable (10), confirmando asimismo que 6 bloques fallaron y que se marcaron o sustituyeron.
 
Deduzco que el disco está perfectamente operativo y “sin problemas”, pero evidentemente los ficheros que fueron afectados no pueden leerse ya que perdieron los bloques originales, de manera que si trato de copiarlos vuelve a fallar y el volumen pasa a sólo lectura.
 
Quiero seguir usando el disco y no quiero que aparezca en rojo ni me vaya a dar problemas salvo que surjan nuevos bloques defectuosos, claro, y dicho sea de paso el tiempo de vida restante del disco está al 100% tras un año de uso nada intensivo.
 
¿Cómo debo proceder? Lo mismo si elimino archivos y carpetas (que están ya sólo por motivos de prueba) no se producirán nuevos errores pues los bloques defectuosos se sustituyeron o retiraron , así que se grabarán y leerán los nuevos archivos normalmente; sin embargo seguirá marcado en rojo por el NAS.
 
Ignoro como trata el S.O. los bloques defectuosos, ¿si formateo el volumen se comprobará que todos los bloques están bien y se quitará ese error de historial de acceso volviéndolo a marcar en verde en su bahía? ¿Si encuentra bloques malos los marca y no los usa como ocurre en los HDD en el PC?
 
Me surge además otra duda, si formateo ¿se pasará el sistema (“activo”) a otro disco? Sé que es una “tontería” pero quiero el sistema en el primer disco SSD.
 
Pues eso, quería preguntar a los que saben más que yo o han experimentado esto ya, antes de decidirme a formatear. Lo mismo formatear ni cambia el sistema de disco ni vuelve a poner en verde el disco y lo suyo es sacarlo y tratarlo en el PC, aunque tampoco sé si luego cuando lo vuelva a formatear el NAS lo marcará nuevamente en rojo si comprueba que tuvo bloques mal o que los tiene aunque estén marcados para no usarse.
 
Para ponerlo más “interesante” el SSD está cifrado, apareciendo la etiqueta “SED” en el volumen en Almacenamiento; lo desbloqueo manualmente tras arrancar (el NAS está siempre encendido).
 
A propósito de esto, me ocurre que cada vez que reinicio, y tras desbloquear el disco cifrado, las carpetas personales (home) son inaccesibles, lo que soluciono yendo a Usuarios y deshabilitando y volviendo a activar las carpetas de inicio. Considero que es un fallo de QTS, que debería habilitar las carpetas de inicio al final del proceso de desbloqueo del volumen que las contenga.
 
Otro apunte para los que sustituirían y descartarían el SSD: Tengo otros discos igual en PC, tremendamente machacados durante más de 4 años y no tienen ni un solo fallo recogido en SMART, curiosamente los fallos en el NAS han afectado a ficheros que se escribieron en su día cuando se instaló y no se han vuelto siquiera a leer salvo con el nuevo backup diario, que debo aclarar esta vez lo hice completo y no diferencial. Además la intención es poner un 2º SSD en RAID 1 con este para aprovecharlo pues ya lógicamente no me inspira total confianza.
 
Sí, es extraño este fallo, sospecho que es fruto del propio NAS y no del disco, tengo reveladores indicios, pero esto es ya otro tema y no quiero extenderme más…
 
Pues nada más por ahora, que no es poco ;-), gracias por leer todo esto y espero vuestras respuestas.
 
Saludos!
  Responder
#2
Yo tuve problemas similares con un disco mecánico antes de construir mi RAID1. Los errores aparecieron al interrumpirse el flujo eléctrico en mi domicilio.
El caso es que si pasaba el chequeo SMART me detectaba sectores defectuosos. Pasaba el chequeo de errors en disco y desaparecían las alertas..hasta X tiempo.
Al final me cansé de esto y decidí reinstalar todo y construir un RAID1 con los mismos discos. Los errores desaparecieron, desde hace años hasta la fecha, por lo que entiendo que esos problemas persistentes que me hacían pensar en errores físicos en el disco, no eran tales.
No digo que el formateo sea la solución, los softwares tipo correctores de fallos en disco y demás deberían ser capaces de corregir errores puntuales, pero ya ves que en mi caso fue lo único que los eliminó por completo.
TS-253A 2x4TB RAID1 8GB RAM
“La inteligencia es la habilidad de evitar hacer trabajo y conseguir que el trabajo se haga.” (Linus Torvalds)
  Responder
#3
Eso da interesantes pistas, gracias por comentarlo. Estoy convencido que al SSD le queda mucha vida, tal como además indica la estimación SMART, que no ha bajado del 100%.

La cuestión es cómo proceder, no sé si formateaste en el propio NAS o externamente, ¿crees que es apropiado formatear en QTS y que pasará de rojo a verde en la administración de discos? ¿sabes si se pasará el sistema a otro disco al hacerlo?

Ya tengo pedido el nuevo SSD on el que haré el RAID 1 con éste, a ver si para cuando llegue tengo el actual listo.

Un saludo!
  Responder
#4
(14-07-2022, 03:17 PM)Josus escribió: Eso da interesantes pistas, gracias por comentarlo. Estoy convencido que al SSD le queda mucha vida, tal como además indica la estimación SMART, que no ha bajado del 100%.

La cuestión es cómo proceder, no sé si formateaste en el propio NAS o externamente, ¿crees que es apropiado formatear en QTS y que pasará de rojo a verde en la administración de discos? ¿sabes si se pasará el sistema a otro disco al hacerlo?

Ya tengo pedido el nuevo SSD on el que haré el RAID 1 con éste, a ver si para cuando llegue tengo el actual listo.

Un saludo!

Yo hice el más hard de todos los resets que se puede hacer, el de fábrica, vaya. Todo el en el mismo NAS, sin tocar absolutamente nada. Y además al reinstalar QTS cree un RAID1 con lo que se reinicializa todo pero bien.
En tu caso seguro podrás formatear el que funciona mal siempre y cuando tengas otro en RAID. Si no tendrías que hacer el traspaso de datos a otro.
TS-253A 2x4TB RAID1 8GB RAM
“La inteligencia es la habilidad de evitar hacer trabajo y conseguir que el trabajo se haga.” (Linus Torvalds)
  Responder
#5
-SOLUCIONADO-

Comento la solución y la correspondiente explicación para quien le pueda ser de utilidad.

Recordar que en resumen el problema era que tras fallos de lectura por bloques defectuosos en el SSD quedaba etiquetado con Error y en rojo en el administrador de almacenamiento del NAS a pesar de aparecer en estado Preparado tras su recuperación. Asimismo si intentaba volver a leer los ficheros que fallaron volvía a estado Sólo Lectura. La información SMART revelaba 6 bloques retirados por errores.

Preguntaba si formateando el volumen correspondiente volvería a poder seguir usando el SSD normalmente y quedaría marcado en verde sin etiqueta de Error en el historial de acceso al disco, y si haciendo esta operación no se activaría como volumen de sistema otro disco, cosa que quería evitar.

La SOLUCIÓN es bastante sencilla y es la siguiente:

1. Eliminar los archivos que fallaron en su lectura.
2. Ejecutar una búsqueda de bloques con errores (Almacenamiento > Disco > Acción…).

No se encuentran esta vez bloques con errores y el SSD pasa a representarse en verde, desaparece la etiqueta de error, que se sustituye por Bueno, e indica también Bueno en Historial de acceso al disco.

El disco funciona perfectamente en lectura/escritura y a pleno rendimiento, y pasa con éxito todas las pruebas, la rápida, la completa, y la comprobación del sistema de archivos del volumen.

La explicación de por qué funciona este procedimiento es la siguiente:

Por algún motivo, en lo que prefiero no entrar, falló la lectura de 6 bloques del SSD, y éste los retiró, es decir los marcó como defectuosos y los ocultó a través de su interfaz hacia el exterior, como si nunca hubieran existido. De esta manera el disco está perfectamente operativo, como si fuera un disco nuevo (con 6 bloques menos) que nunca hubiera fallado.

No obstante, al retirar 6 bloques el SSD afectó lógicamente a los archivos que estaban haciendo uso de ellos, que fueron concretamente 10… curioso este dato…

Esos 10 ficheros quedaron corruptos para el NAS pues evidentemente al intentar leer lo que quedaba de ellos la comprobación de integridad CRC fallaba, y como el sistema de archivos ignora que parte del fichero falta sencillamente da por bloques defectuosos todos los que forman parte de esos ficheros, nada menos que 178 bloques (no confundir con los bloques dañados del SSD).

Esto es llamativo pues si bien los bloques que ahora quedaban de esos ficheros se corresponden con información incompleta o corrupta, los bloques en sí no son defectuosos sino todo lo contrario, son todos buenos ya que el SSD retiró los malos.

Aquí es donde se genera realmente el problema, en mi opinión por un tratamiento incorrecto y una información errónea o cuanto menos confusa del S.O. de QNap, pues NO, no hay 178 bloques dañados como dice literalmente, hay 10 ficheros dañados, que es algo muy distinto, y de paso podría indicar que deben eliminarse o sustituirse por una copia buena de ellos y realizar una posterior búsqueda de bloques defectuosos o comprobar la estructura de archivos para retornar el disco a su estado operativo normal.

Al eliminar los archivos que no podían ser leídos por estar incompletos desaparece todo problema real o físico con el SSD y efectivamente toda prueba lógica resulta con éxito al no formar ya parte del disco los 6 supuestos bloques dañados.

Nadie me dio la información, tampoco figura en la documentación de QNap, pero pensé que si no había correspondencia entre los bloques que el SSD retiró y los que QTS identificó como dañados era por todo esto, por lo que deduje que ya no había en realidad bloques dañados, sólo ficheros corruptos, y que quitándolos todo estaría bien, y que por tanto si hacía búsqueda de bloques con errores ya no saldría ninguno, y así fue, y de paso resultó que esta prueba cuando sale con éxito cambia la etiqueta y el color del disco en su visualización en el gestor de almacenamiento, cosa que tampoco está documentada ni encontré que nadie lo comentara en los foros.

Mal trabajo de los desarrolladores de QNap en esta materia, pues ante por ejemplo 1 sólo bloque defectuoso en un SSD te hace entender que ese disco prácticamente hay que tirarlo, cuando en esta tecnología y en algunas de las marcas (aunque hasta ahora no lo había visto en Samsung), es de lo más normal, puede ocurrir con el disco casi recién estrenado y asimismo seguir funcionando luego perfectamente por muchos años.

No digo que no estaría de más que conservara una advertencia de que en su día falló, pero de ahí a etiquetarlo como Error y en rojo es excesivo, y más cuando el umbral de fallo, como reflejan los datos SMART, todos en verde, está por debajo de lo que el fabricante indica como aceptable, y que figura igualmente en los datos SMART que maneja el NAS.

Por otra parte, dudo que esos 6 bloques del SSD estén defectuosos, lo mismo alguien probó a recuperarlos, si es que hay utilidades para hacerlo con SSD tal como se hace con HDD. Lo digo, sólo como comentario final, porque cuando saltó el problema no fue con el SSD, fue según el NAS con el HDD1, indicando sectores dañados y dejando desmontados los volúmenes, que tras recuperarlos y entrar en SMART vi que no estaban ¡! Todo volvió a estar perfecto con el HDD y me quedé perplejo cuando ahora era el SSD, que no había dado ningún error, el que aparecía en rojo…

Sabemos por qué acaban fallando las memorias NAND, básicamente por el uso, tienen vida limitada, fundamentalmente en escritura, y esos 10 ficheros que fallaron se escribieron hace casi un año y tras el primer backup resulta que nunca más se habían vuelto ni siquiera a leer hasta ahora… no parece que esos bloques puedan estar deteriorados por escrituras continuadas, todo lo contrario, esos ficheros podemos decir que han protegido esos bloques del disco evitando que se escriban…

Tampoco he encontrado relación alguna entre los 6 bloques supuestamente dañados, ni espacial, ni lógicas, ni de direccionamiento, parece demasiada casualidad que fallen 6 bloques inconexos entre sí en el mismo instante, después de casi un año de no fallar ninguno, y tampoco por ahora se ha producido ningún nuevo bloque defectuoso…

En fin, no hace falta formatear, esa es la respuesta a mi pregunta inicial de este hilo, y por tanto tampoco hay riesgo de que el sistema pase a estar activo en otro disco, como quería evitar, cosa que sigo sin saber si ocurre si formateamos el volumen de sistema.

Dicho sea de paso, tampoco sé, ni he encontrado nada en los foros, de cómo se sustituye el disco de sistema, de quererse hacer sin que el sistema se pase a otro disco. Y cuando digo se pase me refiero a que se active, pues ya sabemos que el sistema está en todos los discos; y no es lo mismo que esté en uno o en otro, y sólo por citar un detalle, no se puede desmontar o usar el comando de separar de forma segura en el disco con el sistema activo.

Un saludo a todos y gracias a este foro, que tantas veces nos ayuda.
  Responder
#6
Vaya, sí es curioso. Seguramente me hubiera bastado a mí con saber qué ficheros eran los afectados por los bloques que se me indicaban como erróneos.
Gracias por compartir la explicación  Shy
TS-253A 2x4TB RAID1 8GB RAM
“La inteligencia es la habilidad de evitar hacer trabajo y conseguir que el trabajo se haga.” (Linus Torvalds)
  Responder




Usuarios navegando en este tema: 1 invitado(s)