Karma Design - NVMe (Parte 2) – Monitorização e Comandos (linux)

NVMe (Parte 2) – Monitorização e Comandos (linux)

9. Ferramentas necessárias para monitorização de NVMe

Para efetuar uma análise correta da saúde de discos NVMe em servidores Linux é necessária a ferramenta nvme-cli. Esta utilidade permite comunicar diretamente com o controlador do disco, algo que não é possível com ferramentas SMART tradicionais.

Instalação em sistemas baseados em RHEL / CloudLinux:

dnf install nvme-cli
# ou
yum install nvme-cli

Verificação da instalação:

nvme version

10. Identificação dos discos NVMe no sistema

Antes de qualquer análise é essencial identificar corretamente os discos NVMe instalados no servidor.

nvme list

Os discos serão normalmente apresentados como:

/dev/nvme0n1
/dev/nvme1n1

Nota importante: os comandos devem ser sempre executados sobre o dispositivo e nunca sobre partições (ex.: nvme0n1p3).

11. Verificação da saúde dos discos NVMe

O comando principal para avaliação da saúde de um disco NVMe é:

nvme smart-log /dev/nvme0n1

Este comando devolve os indicadores mais importantes, tais como:

critical_warning – alertas críticos do controlador
percentage_used – percentagem de desgaste do disco
media_errors – erros físicos detetados
temperature – temperatura atual do dispositivo

A ausência de avisos críticos e erros de media indica um disco em bom estado.

12. Análise comparativa em configurações RAID 1

Em sistemas com NVMe configurados em RAID 1, a análise deve ser feita individualmente em cada disco físico.

nvme smart-log /dev/nvme0n1
nvme smart-log /dev/nvme1n1

É esperado que ambos os discos apresentem valores semelhantes de:

✔ Horas de funcionamento
✔ Percentagem de desgaste
✔ Número de erros

Diferenças moderadas são normais, mas discrepâncias grandes devem ser acompanhadas com atenção.

13. Verificação do estado do RAID

A saúde do RAID deve ser verificada separadamente, uma vez que o volume RAID não fornece informação sobre o estado físico dos discos.

cat /proc/mdstat

Um RAID 1 saudável apresenta o estado:

[UU]

Para informação mais detalhada:

mdadm --detail /dev/md2

14. Identificação do modelo e capacidades do disco

Para obter informações detalhadas sobre o controlador NVMe e os limites físicos do disco:

nvme id-ctrl /dev/nvme0n1

Campos relevantes:

tnvmcap – capacidade total do disco
wctemp – temperatura de aviso
cctemp – temperatura crítica

Os valores de temperatura são apresentados em Kelvin, devendo ser convertidos para graus Celsius.

15. Registo de erros e eventos

O registo de erros do controlador NVMe pode ser consultado com:

nvme error-log /dev/nvme0n1

Em sistemas saudáveis, este registo tende a manter-se vazio ou inalterado ao longo do tempo.

16. Comando rápido para verificação periódica

O comando seguinte permite obter rapidamente um resumo do estado dos discos NVMe e do RAID:

for d in /dev/nvme0n1 /dev/nvme1n1; do
  echo "=== $d ==="
  nvme smart-log $d | egrep "critical_warning|temperature|percentage_used|media_errors|unsafe_shutdowns"
done

cat /proc/mdstat

Este comando é particularmente útil em rotinas de manutenção preventiva.

17. Boas práticas operacionais

✔ Monitorizar os discos mensalmente
✔ Explicar decisões técnicas com base em dados reais
✔ Planear substituições antes de falhas críticas
✔ Nunca substituir ambos os discos de um RAID simultaneamente

18. Considerações finais

A correta monitorização de discos NVMe exige ferramentas adequadas e interpretação correta dos dados. Quando bem aplicada, esta abordagem reduz significativamente o risco de falhas inesperadas e aumenta a fiabilidade global da infraestrutura.

Esta metodologia faz parte das boas práticas aplicadas pela Karma Design na gestão de servidores e serviços críticos.