Qué es SMART y cómo usarlo para predecir fallos de discos duros o SSDs
SMART (acrónimo de Self-Monitoring, Analysis, and Reporting Technology) es una función que monitoriza la información interna de las unidades de almacenamiento de un equipo informático. Funciona tanto con discos duros como con unidades de estado sólido y es independiente del sistema operativo usado, BIOS u otro software.
Cualquier usuario de informática se habrá encontrado alguna vez con errores para acceder a los datos de su unidad de almacenamiento o a la propia unidad. Una parte de los errores no tienen relación con daños físicos en el hardware, sino que se producen por fallos en el sistema de archivos, el registro de arranque principal (MBR) o en la tabla de particiones. Hay otros fallos que son graves y algunos definitivos. No solo impiden el acceso a los discos de manera puntual sino que pueden resultar en situaciones catastróficas por la pérdida definitiva de la información que contengan.
SMART es una buena manera de adelantarse a estos errores críticos y al menos poder salvar la información. Aunque no es demasiado conocida para el gran público y está destinada a uso por usuarios más avanzados, lleva tiempo en la industria. Su desarrollo se remonta a 1992 con diferentes nombres según el fabricante que lo usaba (IBM, Seagate, Quantum, Western Digital…) y finalmente su documentación se presentó por primera vez en 2004 dentro del estándar Parallel ATA. Desde entonces ha recibido varias revisiones, la última en 2011.
¿Hasta dónde llega SMART?
Esta tecnología no hace magia. Ni es un recuperador de datos perdidos como estas 10 aplicaciones gratuitas para recuperar ficheros de tu PC que te ofrecimos hace tiempo. Pero es interesante para predecir cuando una unidad de almacenamiento está a punto de acabar su vida útil.
Para ello, SMART realiza un seguimiento de una serie de variables cuyo número y tipo varían de una unidad a otra, pero son indicadores de su confiabilidad. El uso de esta función no es sencillo porque hay que conocer decenas de atributos como la tasa de errores de lectura sin procesar, tiempo de activación, errores incorregibles informados, tiempo de encendido, recuento de ciclos de carga, etc.
Como la mayoría de atributos SMART no están bien documentados y hay muchas inconsistencias en las estadísticas porque los fabricantes de discos duros utilizan diferentes definiciones y medidas, páginas informativas como la que ofrece especialistas como BackBlaze son de gran utilidad.
Además, SMART solo puede ayudar con los fallos predecibles que aparecen en el tiempo y son causados por una mecánica defectuosa del disco o daños en la superficie del disco en el caso de los discos duros. Para las unidades de estado sólido, pueden incluir el desgaste normal a lo largo del tiempo o una gran cantidad de intentos de borrado que han fallado. Los problemas empeoran con el tiempo y, finalmente, las unidades falla.
Obviamente, SMART no puede adelantarse a los fallos no predecibles son causadas por eventos repentinos, de los cuales podemos mencionar, por ejemplo, sobrecargas repentinas de energía o daños inesperados en los circuitos dentro del disco duro o unidad de estado sólido.
¿Cómo se usa SMART?
En equipos con Windows la manera más fácil de leer los datos SMART desde un disco duro o una SSD es mediante el uso de aplicaciones especializadas. Hay bastantes, pero las mejores son de pago. Una de las mejores gratuitas es CrystalDiskInfo, la versión informativa de la herramienta de testeo de rendimiento para almacenamiento del mismo nombre. Puede leer atributos SMART y también es una de las pocas aplicaciones de este tipo que puede obtener datos de todo tipo de interfaces internas, IDE (PATA), SATA y NVMe, como de unidades externas que utilizan eSATA, USB, o IEEE 1394.
Otro método para verificar el estado SMART y los detalles de un HDD o SSD es usar las aplicaciones proporcionadas por su fabricante. Como habrás visto en los análisis de SSD que venimos publicando, este software de soporte ofrece todo tipo de información desde el estado de la unidad, su temperatura, ocupación de volumen o el driver NVMe suministrado, además de actualización del firmware y opciones para verificar el estado SMART.
Si estás usando Windows 10, el sistema ofrece una tercera manera de comprobar el estado SMART de un disco duro o SSD. No muestra detalles, pero puede indicarte si el estado es correcto. Para usarlo, ejecuta el comando wmic diskdrive get model, status desde la consola de Windows, el símbolo del sistema o Powershell. El comando genera la lista de unidades conectadas al PC y muestra el estado SMART de cada una de ellas.
¿Cómo leer los atributos SMART?
El estado de salud del disco duro o la SSD se prueba y monitoriza continuamente con múltiples sensores. Los valores se miden mediante el uso de algoritmos típicos y luego los atributos correspondientes se ajustan de acuerdo con los resultados. Cualquier programa de monitorización de SMART debería incluir atributos que contengan al menos algunos de estos campos:
- Identificador: la definición del atributo. Por lo general, tiene un significado estándar y está marcado con un número entre 1 y 250 (por ejemplo, 9 es el recuento de encendido). Aún así, todas las herramientas de prueba y monitoreo de disco proporcionan el nombre y una descripción textual del atributo.
- Umbral: el valor mínimo del atributo. Si se alcanza este valor, la unidad está a punto de fallar.
- Valor: valor actual del atributo. El algoritmo calcula este número basándose en los datos brutos. Un disco duro nuevo debe tener un número alto, el máximo teórico (100, 200 o más según el fabricante), que va disminuyendo durante su vida útil.
- Peor: el valor más pequeño del atributo jamás registrado.
- Datos: valores medidos brutos proporcionados por un sensor o un contador. Estos son los datos utilizados por el algoritmo diseñado por el fabricante del HDD o SSD. Su contenido depende del atributo y del fabricante de la unidad.
- Banderas: el propósito del atributo. Esto generalmente lo establece el fabricante y, por lo tanto, varía de una unidad a otra. Cada uno de los atributos es crítico y puede predecir un falla inminente, por ejemplo, en el recuento de sectores reasignados ID 5, o estadístico sin efecto directo sobre el estado, por ejemplo, en recuento de pérdida de energía inesperada ID 174).
Valores esenciales a tener en cuenta
No todos los atributos SMART son críticos para la predicción de fallos en las unidades de almacenamiento. Los estudios mencionados anteriormente sobre las tasas de fallos de los discos duros y otras fuentes técnicas coinciden en que una ayuda importante para identificar las unidades defectuosas son:
– Recuentos de sectores reasignados. La reasignación ocurre cuando la lógica de la unidad reasigna un sector dañado (como resultado de errores recurrentes de software o de hardware) a un nuevo sector físico de los que todas las unidades tienen de repuesto. Este atributo refleja el número de veces que se ha realizado una reasignación. Si su valor aumenta, es una indicación de desgaste de HDD o SSD.
– Recuento actual del sector pendiente. Este valor recuenta los sectores «inestables», es decir, los dañados con errores de lectura que están esperando una reasignación. Los algoritmos SMART tienen conocimientos mixtos sobre este atributo en particular, ya que a veces no es convincente. Aún así, puede proporcionar una advertencia anticipada de posibles problemas.
– Errores incorregibles informados. Es el recuento de errores que son imposibles de recuperar y es útil porque parece tener el mismo significado para todos los fabricantes.
– Borrado del recuento de fallos. Es un buen indicador de la muerte prematura de una unidad de estado sólido. Cuenta la cantidad de intentos fallidos de eliminación de datos y un valor en aumento indicará al usuario que la memoria flash NAND usada por la SSD está cerca del final de su vida útil.
– Recuento de nivelación de uso. También es especialmente útil para SSD. Los fabricantes establecen la vida útil esperada de un SSD en sus datos SMART. El contador de nivelación de desgaste es una estimación de la salud de su disco. Se calcula mediante un algoritmo que tiene en cuenta la vida útil esperada predefinida y el número de ciclos (escritura, borrado, etc.) que puede realizar cada bloque de memoria flash antes de llegar al final.
– Temperatura del disco. Es un parámetro muy debatido, pero aún así, se considera que valores superiores a 60° C pueden reducir la vida útil de una unidad de almacenamiento y aumentar la probabilidad de daños. Como ocurre con cualquier otro componente de un equipo informático, mantener bajo control las temperaturas con los mejores sistemas de refrigeración que nos podamos permitir prolongará su vida útil y limitará los errores.
SMART no es conocido entre el gran público y la verdad es que no es sencillo de usar y entender, pero puede ser útil para usuarios medios y avanzados que busquen información avanzada del estado de sus unidades de almacenamiento que sí o sí, algún día fallarán total o parcialmente. Adelantarse a estos errores críticos permitirá al menos salvar la información.
Fuente: https://www.muycomputer.com/2021/03/19/smart-fallos-de-discos-duros-ssd/
Añadir nuevo comentario