NVMe (Parte 2) – Monitorização e Comandos (linux)
9. Ferramentas necessárias para monitorização de NVMe
Para efetuar uma análise correta da saúde de discos NVMe em servidores Linux é necessária a ferramenta nvme-cli. Esta utilidade permite comunicar diretamente com o controlador do disco, algo que não é possível com ferramentas SMART tradicionais.
Instalação em sistemas baseados em RHEL / CloudLinux:
dnf install nvme-cli # ou yum install nvme-cli
Verificação da instalação:
nvme version
10. Identificação dos discos NVMe no sistema
Antes de qualquer análise é essencial identificar corretamente os discos NVMe instalados no servidor.
nvme list
Os discos serão normalmente apresentados como:
/dev/nvme0n1
/dev/nvme1n1
Nota importante: os comandos devem ser sempre executados sobre o dispositivo e nunca sobre partições (ex.: nvme0n1p3).
11. Verificação da saúde dos discos NVMe
O comando principal para avaliação da saúde de um disco NVMe é:
nvme smart-log /dev/nvme0n1
Este comando devolve os indicadores mais importantes, tais como:
critical_warning – alertas críticos do controlador
percentage_used – percentagem de desgaste do disco
media_errors – erros físicos detetados
temperature – temperatura atual do dispositivo
A ausência de avisos críticos e erros de media indica um disco em bom estado.
12. Análise comparativa em configurações RAID 1
Em sistemas com NVMe configurados em RAID 1, a análise deve ser feita individualmente em cada disco físico.
nvme smart-log /dev/nvme0n1 nvme smart-log /dev/nvme1n1
É esperado que ambos os discos apresentem valores semelhantes de:
✔ Horas de funcionamento
✔ Percentagem de desgaste
✔ Número de erros
Diferenças moderadas são normais, mas discrepâncias grandes devem ser acompanhadas com atenção.
13. Verificação do estado do RAID
A saúde do RAID deve ser verificada separadamente, uma vez que o volume RAID não fornece informação sobre o estado físico dos discos.
cat /proc/mdstat
Um RAID 1 saudável apresenta o estado:
[UU]
Para informação mais detalhada:
mdadm --detail /dev/md2
14. Identificação do modelo e capacidades do disco
Para obter informações detalhadas sobre o controlador NVMe e os limites físicos do disco:
nvme id-ctrl /dev/nvme0n1
Campos relevantes:
tnvmcap – capacidade total do disco
wctemp – temperatura de aviso
cctemp – temperatura crítica
Os valores de temperatura são apresentados em Kelvin, devendo ser convertidos para graus Celsius.
15. Registo de erros e eventos
O registo de erros do controlador NVMe pode ser consultado com:
nvme error-log /dev/nvme0n1
Em sistemas saudáveis, este registo tende a manter-se vazio ou inalterado ao longo do tempo.
16. Comando rápido para verificação periódica
O comando seguinte permite obter rapidamente um resumo do estado dos discos NVMe e do RAID:
for d in /dev/nvme0n1 /dev/nvme1n1; do echo "=== $d ===" nvme smart-log $d | egrep "critical_warning|temperature|percentage_used|media_errors|unsafe_shutdowns" done cat /proc/mdstat
Este comando é particularmente útil em rotinas de manutenção preventiva.
17. Boas práticas operacionais
✔ Monitorizar os discos mensalmente
✔ Explicar decisões técnicas com base em dados reais
✔ Planear substituições antes de falhas críticas
✔ Nunca substituir ambos os discos de um RAID simultaneamente
18. Considerações finais
A correta monitorização de discos NVMe exige ferramentas adequadas e interpretação correta dos dados. Quando bem aplicada, esta abordagem reduz significativamente o risco de falhas inesperadas e aumenta a fiabilidade global da infraestrutura.
Esta metodologia faz parte das boas práticas aplicadas pela Karma Design na gestão de servidores e serviços críticos.