Dit weekend hadden we een ietwat vreemd probleem op een machine. Spontaan begon deze te herstarten, zelfs op een onbelast moment (alles was ongeveer afgezet, en alle services waren reeds weggemigreerd naar andere machines). Zeer vreemd, en zorgde dus voor een reisje naar het datacentrum waar de machine stond. Na 8 uur stond de teller op 16 volledige reboots… Dit was al eens een half jaar geleden voorgekomen, 1 spontane reboot, en nooit meer iets van gemerkt. De machine heeft dan 2 weken op kantoor gelegen, belast, onbelast, gecontroleerd en dubbel gecontroleerd…
Aangekomen in het datacentrum deden we de standaard routine… Knoppix CD’tje erin, reboot geven op command line, en memtest gestart. Met een extra lat RAM in de achterzak zaten we te hopen op foutmeldingen, en het probleem zou opgelost zijn… Nada. Geen foutje te bespeuren, geheugen was goed.
Machine uit het rack gehaald, opengemaakt, en eens gecontroleerd… Alle connectors zaten nog goed, geen stof te zien. Alles eens losgemaakt, uitgeblazen en teruggeplaatst, eens voelen aan de koeler, aan de stroomblok… Nog niets speciaals, behalve dat, voor een onbelaste machine, die toch ietwat warm was, maar dit kon zijn door het feit dat de machine tussen twee Dells in zit.
En toen startte die niet meer… en dat is het goede nieuws! Want na wat testwerk was de schuldige gevonden. De voeding was stuk; de ventilator draaide bvb niet altijd meer, wat de verhoogde temperatuur verklaarde.
Beter een defecte machine, dan een machine die om onverklaarbare redenen, op zondag, als je volk hebt, begint te herstarten…