SMART Check ->Sinnvoll

  • Hallo,

    bei mir ist bei UGOS outOfthe Box 1*die Woche ein Quick Scan und 1* Monat ein ausführlicher SMART Check eingestellt. Meine Frage ist: Macht das Sinn? Gerade der Ausführliche Check belastet die Platten schon sehr. Das ist mir bei Synologie jetzt nicht aufgefallen (oder ich habe das mal vor Jahren wegkonfiguriert). Bei meinen Mechanischen Platten braucht der Check auch gut 8Stunden.

    Bei SMART ist es doch so das ich auch ohne den Check einen Status bekomme wenn es den Platten nicht so gut geht.

  • Es macht wenig Sinn, der Test stresst eben die HDDs unnötig.

    Hin und wieder mal einen Blick auf die SMART Werte machen genügt.

    Vorallem sind die SMART Werte gegenüber dem Test wirklich aussagend über den Zustand der HDDs.

    Meine Hardware

    iDX6011 Pro (64GB RAM) btrfs, 2x12 TB SG Enterpr. Raid1, 1x12TB SG Enterpr. Basic, 2x 2TB NVME Lexar NM790 Raid1,

    DXP2800 btrfs 1x 12TB WDRedPl, 16GB RAM Crucial CT16G56C46S5.C8B2, NVME 2x 500GB Samsg. 970 EVOPlus Raid1,

    DS1525+, btrfs 2x8TB WD, btrfs SHR, 1x 12 TB SG IronWolf, 1x 3TB WD RedPlus, 2x 2TB NVME Lexar NM790 Raid1, 40GB ECC RAM

    DS218+ btrfs 1x12TB WD, 1x SSD 500GB, RAM 20GB DDR4-2666MHZ

    USV US3000, EatonEllip.PRO 850DIN, Zyxel XMG-108 8 x 2,5GB, Zyxel GS1200-8 x 1GB,

  • Problem ist halt, dass die SMART Werte nur dann durch die Disk-Firmware angepasst werden, wenn die Disk auch entsprechende Probleme bemerkt. Defekte Blöcke werden beispielsweise nur entsprechend notiert, falls ein Zugriff stattgefunden hat und fehlschlug.

    Solange das nicht passiert ist, ändern sich die SMART Werte auch nicht. Einfach nur auf die Werte zu schauen ohne Tests durchzuführen funktioniert somit in den meisten Fällen nicht. Da fallen dann die relevanten Fehler nicht auf.

    Insofern ist es schon sinnvoll, ab und zu einen vollen Test zu machen, der auch nicht genutzte Bereiche der Festplatte zufällig testet. Ich habe das hier auf alle drei Monate gesetzt.

  • Sehe ich genauso wie IngoBingo, auch ich habe den vollständigen S.M.A.R.T. Test auf alle drei Monate gesetzt.

    Zusätzlich habe ich den IHM Test bei dem dreimonatigen vollständigen Test mit an.

    Den Schnell-Test habe, so wie ursprünglich von UGREEN auf Standard eingestellt, auf einen Monat gelassen und nur zusätzlich den IHM Test mit ausgewählt.

    DXP2800 - 8GB RAM, NVME RAID1: 2x SKhynix BC501 HFM256GDJTNG-8310A, HDD RAID1: 2x Seagate Ironwolf ST6000VN006

  • Problem ist halt, dass die SMART Werte nur dann durch die Disk-Firmware angepasst werden, wenn die Disk auch entsprechende Probleme bemerkt. Defekte Blöcke werden beispielsweise nur entsprechend notiert, falls ein Zugriff stattgefunden hat und fehlschlug.

    Das reicht ja auch im Prinzip, während durch den SMART Test wird die HDD nur unnötig künstlich gestresst und als Ergebnis meistens normal angezeigt.

    Wir haben festgestellt, daß angezeigtem Zustand Normal die HDD bereits Fehlergrößen als SMART Wert angezeigt bekam wo sie bereits längst umgetauscht werden hätte müssen und ebenso das Gegenteil.

    Die SMART Werte sind doch wesentlich aussagekräftiger dadurch, daß ich sie genauer interpretiert habe.

    Meine Hardware

    iDX6011 Pro (64GB RAM) btrfs, 2x12 TB SG Enterpr. Raid1, 1x12TB SG Enterpr. Basic, 2x 2TB NVME Lexar NM790 Raid1,

    DXP2800 btrfs 1x 12TB WDRedPl, 16GB RAM Crucial CT16G56C46S5.C8B2, NVME 2x 500GB Samsg. 970 EVOPlus Raid1,

    DS1525+, btrfs 2x8TB WD, btrfs SHR, 1x 12 TB SG IronWolf, 1x 3TB WD RedPlus, 2x 2TB NVME Lexar NM790 Raid1, 40GB ECC RAM

    DS218+ btrfs 1x12TB WD, 1x SSD 500GB, RAM 20GB DDR4-2666MHZ

    USV US3000, EatonEllip.PRO 850DIN, Zyxel XMG-108 8 x 2,5GB, Zyxel GS1200-8 x 1GB,

  • Wir haben festgestellt, daß angezeigtem Zustand Normal die HDD bereits Fehlergrößen als SMART Wert angezeigt bekam wo sie bereits längst umgetauscht werden hätte müssen und ebenso das Gegenteil

    Kann ich mir schlecht vorstellen, dass im gleichen System identische Werte unterschiedlich interpretiert werden.

    Meine Hardware


    • DXP6800PRO | 2 x CT16G48C40S5.M8A1 16 GB 4800 MHz | 3 x Seagate ST12000VN0008-2YS101 12TB | 3 x Samsung SSD 870 EVO 1TB | 4 x Samsung SSD 990 PRO 2TB

  • Ich sehe da schon einen Unterschied, ob ich die SMART Werte direkt anschaue oder daß der Test das Wort in Ordnung auswirft.

    Meine Hardware

    iDX6011 Pro (64GB RAM) btrfs, 2x12 TB SG Enterpr. Raid1, 1x12TB SG Enterpr. Basic, 2x 2TB NVME Lexar NM790 Raid1,

    DXP2800 btrfs 1x 12TB WDRedPl, 16GB RAM Crucial CT16G56C46S5.C8B2, NVME 2x 500GB Samsg. 970 EVOPlus Raid1,

    DS1525+, btrfs 2x8TB WD, btrfs SHR, 1x 12 TB SG IronWolf, 1x 3TB WD RedPlus, 2x 2TB NVME Lexar NM790 Raid1, 40GB ECC RAM

    DS218+ btrfs 1x12TB WD, 1x SSD 500GB, RAM 20GB DDR4-2666MHZ

    USV US3000, EatonEllip.PRO 850DIN, Zyxel XMG-108 8 x 2,5GB, Zyxel GS1200-8 x 1GB,

  • Ich sehe da schon einen Unterschied, ob ich die SMART Werte direkt anschaue oder daß der Test das Wort in Ordnung auswirft.

    Du hast mich nicht verstanden.


    Der Zustand ist die Interpretation von Werten und deren Wichtung.

    Deshalb:

    Kann ich mir schlecht vorstellen, dass im gleichen System identische Werte unterschiedlich interpretiert werden.


    Wenn du Werte anders interpretierst oder wichtest, sind deine Ergebnisse natürlich anders.

    Meine Hardware


    • DXP6800PRO | 2 x CT16G48C40S5.M8A1 16 GB 4800 MHz | 3 x Seagate ST12000VN0008-2YS101 12TB | 3 x Samsung SSD 870 EVO 1TB | 4 x Samsung SSD 990 PRO 2TB

    Edited once, last by alter Mann: Ein Beitrag von alter Mann mit diesem Beitrag zusammengefügt. (September 27, 2025 at 4:20 PM).

  • Das reicht ja auch im Prinzip, während durch den SMART Test wird die HDD nur unnötig künstlich gestresst und als Ergebnis meistens normal angezeigt.


    Wenn die Disk Oberflächenprobleme hat, aber gerade zufällig an Stellen, die momentan nicht gelesen oder geschrieben werden, dann ist das in meinen Augen ein Problem und ich möchte es rechtzeitig genug wissen, um die Disk tauschen zu können. Dann ist die Chance nämlich größer, dass eine andere Disk im RAID diese Daten noch hat.

    Insofern sehe ich das nicht als unnötigen Stress an, sondern als notwendigen Stress. Alle paar Monate muss die Platte prüfen, ob die Oberfläche noch okay ist. Und das Ergebnis dann entsprechend in den SMART Werten hinterlegen.

    Wir haben festgestellt, daß angezeigtem Zustand Normal die HDD bereits Fehlergrößen als SMART Wert angezeigt bekam wo sie bereits längst umgetauscht werden hätte müssen und ebenso das Gegenteil.

    Das ist dann Sache des Herstellers der Platte. Welche Werte als okay, pre-fail oder fail angesehen werden, legt dieser fest.

    Ob du eine Platte nach anderen Kriterien tauscht, ist natürlich dir überlassen. Der Hersteller wird sie nach seinen Kriterien tauschen.

  • Es is ja auch jedermanns Sache wie er das handhabt. Wenn Du meinst Du fährst so besser bitte, ich will Dich weder von etwas anderem überzeugen noch umstimmen. Deine Sache ob Du die HDDs kaputt testest.

    Ich fahre mit meiner Methode seit über 13 Jahre sehr gut.

    Meine Hardware

    iDX6011 Pro (64GB RAM) btrfs, 2x12 TB SG Enterpr. Raid1, 1x12TB SG Enterpr. Basic, 2x 2TB NVME Lexar NM790 Raid1,

    DXP2800 btrfs 1x 12TB WDRedPl, 16GB RAM Crucial CT16G56C46S5.C8B2, NVME 2x 500GB Samsg. 970 EVOPlus Raid1,

    DS1525+, btrfs 2x8TB WD, btrfs SHR, 1x 12 TB SG IronWolf, 1x 3TB WD RedPlus, 2x 2TB NVME Lexar NM790 Raid1, 40GB ECC RAM

    DS218+ btrfs 1x12TB WD, 1x SSD 500GB, RAM 20GB DDR4-2666MHZ

    USV US3000, EatonEllip.PRO 850DIN, Zyxel XMG-108 8 x 2,5GB, Zyxel GS1200-8 x 1GB,

  • ich will Dich weder von etwas anderem überzeugen noch umstimmen. Deine Sache ob Du die HDDs kaputt testest.

    Eigentlich willst du das schon. ;) Sonst würdest du ja nicht von "kaputt testen" schreiben. Ich will das übrigens auch, denn ich halte es in den meisten Fällen für schlicht nicht sinnvoll, keine SMART Tests zu machen.


    Man schreibt HDDs nicht dadurch kaputt, dass sie alle drei Monate einen ausführlichen Selbsttest machen! Die hiesigen Disks sind auf 24/7 Betrieb mit einer Workload von 180 TB/Jahr spezifiziert. Ich habe den Test auf alle drei Monate begrenzt, d.h. die Disks prüfen vier Mal im Jahr ihre 8 TB vollständig. Macht eine Workload von 32 TB/Jahr. Da bleibt noch genügend Luft nach oben.


    Die Ausgangsfrage war ja, ob die Tests allgemein sinnvoll sind. Und meiner Meinung nach sind sie das durchaus.
    Ich möchte lieber, dass eine Disk beim gezielten Test stirbt, als dass sie durch Zufall während des Lesens oder Schreibens feststellt, dass sie ein Problem hat. Die Chance ist nämlich groß, dass die genau gleich alten, baugleichen Disks diesen Fehler dann beim Rebuild auch haben. Und dann geht der Rebuild schief, weil exakt dann das erste Mal nach evtl. Jahren mal wieder die Disks komplett gelesen werden.

    Dann lieber alle drei Monate den Test. Dann werden die Disks alle einmal vollständig gelesen und falls dabei ein Problem auftaucht, werden defekte Disks getauscht.

  • Es is ja auch jedermanns Sache wie er das handhabt. Wenn Du meinst Du fährst so besser bitte,

    Meine Hardware

    iDX6011 Pro (64GB RAM) btrfs, 2x12 TB SG Enterpr. Raid1, 1x12TB SG Enterpr. Basic, 2x 2TB NVME Lexar NM790 Raid1,

    DXP2800 btrfs 1x 12TB WDRedPl, 16GB RAM Crucial CT16G56C46S5.C8B2, NVME 2x 500GB Samsg. 970 EVOPlus Raid1,

    DS1525+, btrfs 2x8TB WD, btrfs SHR, 1x 12 TB SG IronWolf, 1x 3TB WD RedPlus, 2x 2TB NVME Lexar NM790 Raid1, 40GB ECC RAM

    DS218+ btrfs 1x12TB WD, 1x SSD 500GB, RAM 20GB DDR4-2666MHZ

    USV US3000, EatonEllip.PRO 850DIN, Zyxel XMG-108 8 x 2,5GB, Zyxel GS1200-8 x 1GB,

  • Wenn ich doch irgendwann auf einen Plattenfehler laufen, kann ich die Platte denn doch immernoch austauschen. Das ist doch der Sinn des Raides, da brauche ich die doch nicht jeden Monat zu streßen. Und was ich noch kurioser halte. Warum denn alle Platten gleichzeitig. Macht es nicht mehr Sinn in dem einen Monat Platte 1, in den nächsten Platte 2 etc, also getrennt voneinander.

    Ich habe den Volltest jetzt rstmal deaktiviert. Aber danke für die Gute Diskusion

    Quote

    Ich möchte lieber, dass eine Disk beim gezielten Test stirbt, als dass sie durch Zufall während des Lesens oder Schreibens feststellt, dass sie ein Problem hat. Die Chance ist nämlich groß, dass die genau gleich alten, baugleichen Disks diesen Fehler dann beim Rebuild auch haben. Und dann geht der Rebuild schief, weil exakt dann das erste Mal nach evtl. Jahren mal wieder die Disks komplett gelesen werden.

    Ist das so das der Rebuild schief geht wenn ich Platte A tausche und bei Platte B in einem unbekannten Segment ein Fehler ist??? (jetzt mal einfachhalber bei einen Raid1)

  • Das kann vermutlich passieren, aber zum einen sollte ja die Datenträgerbereinigung regelmäßig durchgeführt werden. zb. Wöchentlich / Monatlich. Auch hier wird ja im Prinzip die komplette HDD abgeglichen und hierdurch sollten Fehler sich bereits zeigen und auch in den SMART Werten bereits zu sehen sein.

    Meine persönliche Meinung je größer die Datenmenge um so öfter. Je öfter die Datenträgerbereinigung durchgeführt wird umso weniger lang dauert diese.

    Da man ja nie weiß was das NAS so treibt, hält der dessen sich bewußte User ja eh ein oder 2 regelmäßige Backups auf der Hinterhand. So ist man ja in jedem Fall für alles gewappnet. Die 3-2-1 Backupregel sollte ja von jedem eingehalten werden.

    Meine Hardware

    iDX6011 Pro (64GB RAM) btrfs, 2x12 TB SG Enterpr. Raid1, 1x12TB SG Enterpr. Basic, 2x 2TB NVME Lexar NM790 Raid1,

    DXP2800 btrfs 1x 12TB WDRedPl, 16GB RAM Crucial CT16G56C46S5.C8B2, NVME 2x 500GB Samsg. 970 EVOPlus Raid1,

    DS1525+, btrfs 2x8TB WD, btrfs SHR, 1x 12 TB SG IronWolf, 1x 3TB WD RedPlus, 2x 2TB NVME Lexar NM790 Raid1, 40GB ECC RAM

    DS218+ btrfs 1x12TB WD, 1x SSD 500GB, RAM 20GB DDR4-2666MHZ

    USV US3000, EatonEllip.PRO 850DIN, Zyxel XMG-108 8 x 2,5GB, Zyxel GS1200-8 x 1GB,

    Edited once, last by eineb (September 29, 2025 at 10:03 PM).

  • Wenn ich doch irgendwann auf einen Plattenfehler laufen, kann ich die Platte denn doch immernoch austauschen.

    Vielleicht mal anders erklärt: HDDs altern. Irgendwann bekommen die meisten mal Probleme mit Oberflächendefekten. Das ist nicht ungewöhnlich. Die Defekte tauchen irgendwo auf der Oberfläche auf. Es kann sein, dass dort gerade Daten gespeichert sind oder auch nicht. Die Plattenfirmware bekommt dies mit, wenn sie auf die Bereiche zugreifen soll. Sie bekommt es somit nicht mit, wenn keine Zugriffe darauf stattfinden.

    Bei Desktop-Platten wird relativ lange versucht, die entsprechenden Blöcke trotzdem zu lesen. Bei NAS- oder Server-Platten wird das nur kurz probiert. Dann wird der entsprechende Block ausgemappt und dies entsprechend in den SMART Werten eingetragen. Wie gesagt: das passiert nur bei Zugriffen.

    Das Risiko für solch ein Problem steigt mit zunehmendem Alter der Platten. Ziel sollte also sein, so früh wie möglich ein entsprechendes Problem zu bemerken. Daher die gezielten Tests. Irgendeine der verbauten Platten wird mit solch einem Problem anfangen und die möchte ich zu dem Zeitpunkt tauschen, wo die anderen Platten noch keine Fehler haben.

    Mache ich es umgekehrt und teste nicht, bemerke ich das Problem der ersten Platte nur durch Zufall und die Wahrscheinlichkeit ist groß, dass bis dahin die anderen Platten die selben Probleme haben.

    Das ist doch der Sinn des Raides, da brauche ich die doch nicht jeden Monat zu streßen.

    Wie gesagt: alle drei Monate. Wir sind hier ja nicht im kritischen Enterprise-Umfeld.

    Da geht man übrigens bei klassischen HDDs oft noch einen Schritt weiter. Professionelle RAID-Controller machen Patrol-Reads, d.h. lesen zufällige Datenblöcke von den Disks, wenn gerade nichts zu tun ist.

    Und was ich noch kurioser halte. Warum denn alle Platten gleichzeitig.

    Ich weiß nicht, wie die Ugreen Software das genau steuert. Ich würde es der Logik nach auch nacheinander ausführen. Nur vielleicht nicht mit einem Monat Abstand, sondern mit Platte 2 starten, wenn Platte 1 durch ist und so weiter.

    Ist das so das der Rebuild schief geht wenn ich Platte A tausche und bei Platte B in einem unbekannten Segment ein Fehler ist??? (jetzt mal einfachhalber bei einen Raid1)

    Ja. Auch hier wieder fehlt mir aber wieder die Erfahrung, wie das bei Ugreen konkret gelöst wird.

    Normalerweise ist das bei einem RAID-Rebuild eines RAID-Controllers dann zuerst mal das Ende. Da wird die zweite Disk auf Fail-Status gesetzt und der RAID-Rebuild stoppt. Manche Controller setzen das RAID dann auf Read-Only, andere schalten es komplett offline.

    Und da ist natürlich der sinnvolle Tipp von eineb angesagt: Backups zu haben. Also eigentlich ist er vorher angesagt. Zu dem Zeitpunkt kommt er zu spät.

Participate now!

Join our community with over 10,000 members!

Register yourself now for free to get full access to all content, graphics, downloads and other exclusive features!