don't turn out the lights

don't turn out the lights

Ho visto questa scena ripetersi in almeno una dozzina di centri dati e impianti industriali tra Milano e l'hinterland negli ultimi sei anni. Un responsabile tecnico, terrorizzato dall'idea di un blackout improvviso o di un calo di tensione che possa corrompere i database, decide di ignorare ogni protocollo di efficienza per adottare una mentalità estrema. Convince la dirigenza che l'unica soluzione sia mantenere ogni singolo sistema, anche quelli ridondanti o non critici, in uno stato di perenne attività al massimo carico, convinto che l'inerzia elettrica li proteggerà. È l'approccio che molti chiamano scherzosamente Don't Turn Out The Lights, ma quando arriva la bolletta o, peggio, quando un trasformatore esplode per il calore accumulato, non c'è più nulla da ridere. Ho visto un'azienda di logistica perdere 40.000 euro in una sola notte perché aveva sovraccaricato il gruppo di continuità per mantenere attivi monitor che nessuno stava guardando, impedendo al sistema di gestire un vero picco di tensione esterno.

L'errore fatale di confondere la disponibilità con l'attività costante

Molti pensano che per garantire la continuità operativa sia necessario che ogni componente hardware rimanga acceso e operativo 24 ore su 24, 7 giorni su 7. Questa idea nasce dalla paura dei transitori di accensione, quei millisecondi in cui la corrente di spunto può teoricamente danneggiare un componente vecchio. In realtà, mantenere tutto acceso senza una gestione dinamica del carico non è sicurezza, è pigrizia tecnica. Un server moderno o un macchinario industriale certificato CE non soffre per un ciclo di accensione controllato; soffre invece per l'usura dei cuscinetti delle ventole e l'essiccazione degli elettroliti nei condensatori dovuta al calore costante.

Se tieni acceso tutto ciò che hai, stai riducendo drasticamente il "headroom" del tuo impianto. In caso di sbalzo sulla rete nazionale — evento tutt'altro che raro durante i picchi estivi in Italia — il tuo sistema di protezione non ha margine di manovra. Ho analizzato impianti dove la temperatura operativa media era di 15 gradi superiore al necessario solo perché il team temeva di spegnere i rack secondari. Quel calore extra accorcia la vita dell'hardware del 50% ogni 10 gradi sopra la soglia ideale. La soluzione non è lasciare tutto acceso, ma implementare una gerarchia di carichi. Devi sapere esattamente cosa può essere spento in tre secondi e cosa non deve mai fermarsi.

La gestione dei gruppi di continuità oltre il concetto di Don't Turn Out The Lights

Il cuore del problema risiede spesso nel modo in cui vengono dimensionati e utilizzati gli UPS. Molti amministratori di sistema applicano la filosofia Don't Turn Out The Lights credendo che più carico c'è sull'UPS, più il sistema sia "stabile" sotto sforzo. È un'assurdità tecnica che ignora le curve di efficienza. Se carichi un UPS all'85% o al 90% della sua capacità nominale per tenere accesi carichi inutili, stai lavorando senza rete di sicurezza.

Il mito della batteria sempre carica

Esiste la convinzione che una batteria al piombo-acido o al litio sia più felice se il sistema è sempre attivo. Non è così. Le batterie degradano per cicli di carica/scarica ma anche per temperatura. Se il tuo ambiente è saturo di calore perché non hai il coraggio di spegnere i sistemi non necessari, stai letteralmente cucinando la tua unica protezione contro il blackout. Un esperto sa che la manutenzione predittiva batte la speranza ogni volta. Ho visto batterie gonfie come palloncini perché il locale tecnico era diventato un forno a causa di questa fissazione per l'accensione perpetua.

La realtà dei costi nascosti

In Italia, il costo dell'energia per le imprese non è solo legato al consumo ma anche alla potenza impegnata e ai reattivi. Mantenere accesi trasformatori a vuoto o motori che non producono nulla genera un rifasamento pessimo. Se la tua azienda paga penali in bolletta per l'energia reattiva, è probabile che tu stia applicando questa strategia sbagliata senza nemmeno rendertene conto. La soluzione è un monitoraggio granulare: se un apparato non serve per le prossime sei ore, deve andare in stato di sospensione profonda o essere isolato fisicamente.

Sottovalutare l'automazione dello spegnimento controllato

L'errore che costa più tempo ai sistemisti è la mancanza di script di spegnimento automatico affidabili. Quando si verifica un'interruzione di corrente, la maggior parte delle persone confida che le batterie durino abbastanza da permettere un intervento manuale. Non succede quasi mai. Il tecnico è in pausa caffè, il telefono non prende, o la VPN cade proprio nel momento peggiore.

Chi teme di "spegnere le luci" spesso lo fa perché non si fida del proprio processo di riavvio. Se hai paura che il tuo database non torni su dopo uno spegnimento, il tuo problema non è l'alimentazione, è la configurazione del database. Ho lavorato con una software house che spendeva migliaia di euro l'anno per mantenere server legacy sempre attivi solo perché nessuno sapeva più come configurarli da zero. Questa è debito tecnico, non sicurezza. La soluzione reale è testare il "cold boot" (l'avvio a freddo) una volta al mese. Se non sai far ripartire il tuo sistema da zero in meno di venti minuti, sei già in pericolo, indipendentemente da quanta corrente continui a dargli.

Confronto pratico tra approccio statico e gestione dinamica

Immaginiamo una piccola officina meccanica con controllo numerico (CNC) e un ufficio tecnico annesso.

L'approccio sbagliato si manifesta così: il titolare lascia tutti i server dell'ufficio accesi durante il weekend "perché così lunedì sono già pronti". I computer delle postazioni CAD rimangono in standby, consumando comunque una quota significativa. Il compressore d'aria centrale resta sotto tensione, mantenendo la pressione nei tubi nonostante le piccole perdite inevitabili, costringendo il motore a partire tre o quattro volte nella notte per pochi secondi. Risultato? Un consumo di base (baseload) altissimo, un rischio d'incendio elettrico non monitorato e un'usura inutile delle guarnizioni del compressore. In caso di temporale notturno, se un fulmine colpisce la linea, tutti questi apparati sono esposti al picco di tensione.

L'approccio corretto, quello che fa risparmiare migliaia di euro, è diverso. Alle 18:00, un sistema domotico da pochi euro o uno script centralizzato stacca i carichi non critici. I server passano in modalità "wake-on-LAN", i computer CAD vengono spenti completamente tramite prese intelligenti, e il compressore viene isolato pneumaticamente ed elettricamente. Lunedì mattina, alle 07:30, il sistema riattiva tutto in sequenza per evitare picchi di assorbimento simultanei. In questo scenario, l'azienda ha ridotto il rischio di danni da sovratensione del 90% e ha tagliato la bolletta del weekend del 70%. Soprattutto, ha forzato la verifica che ogni sistema sia in grado di riavviarsi correttamente ogni singola settimana.

L'illusione della ridondanza infinita senza manutenzione

Ho incontrato dirigenti convinti che avere due linee elettriche separate e tre generatori diesel fosse sufficiente per dormire sonni tranquilli mentre applicavano la regola del Don't Turn Out The Lights. La realtà è che la ridondanza non serve a nulla se non viene testata sotto carico reale. Il gasolio nei generatori degrada. Le alghe crescono nei serbatoi se il combustibile rimane fermo per anni perché "non vogliamo mai spegnere la rete principale per testare".

Un'azienda farmaceutica vicino Roma ha perso un intero lotto di vaccini da milioni di euro perché, nonostante avessero generatori modernissimi, il commutatore automatico (ATS) non era mai stato azionato sotto carico. Quando c'è stato un vero guasto sulla linea esterna, il commutatore si è bloccato a causa della polvere e dell'ossidazione dei contatti, rimasti fermi per troppo tempo nella stessa posizione. Se avessero avuto il coraggio di togliere tensione periodicamente per i test, avrebbero scoperto il problema in un ambiente controllato. La vera resilienza non è non spegnere mai, ma saper gestire lo spegnimento e la transizione in modo fluido.

Errori nel monitoraggio ambientale e termico

Non si può parlare di gestione dell'energia senza guardare ai condizionatori. In Italia, soprattutto al sud e nelle isole, il costo del raffreddamento può superare quello dell'alimentazione stessa degli apparati informatici. L'errore classico è impostare il condizionatore a 18 gradi fissi, convinti che "più freddo è meglio è".

La realtà tecnica, supportata dalle linee guida ASHRAE, dice che i server moderni operano perfettamente anche a 25-27 gradi. Tenere una sala server gelata solo per paura è uno spreco enorme. Se riduci il numero di apparati accesi inutilmente, riduci il calore prodotto e, di conseguenza, il carico sui condizionatori. È un effetto a cascata. Ho visto data center migliorare il loro PUE (Power Usage Effectiveness) da 2.5 a 1.4 semplicemente spegnendo l'hardware obsoleto e alzando di 4 gradi la temperatura ambiente. Non hai bisogno di un frigorifero; hai bisogno di un flusso d'aria intelligente.

Da non perdere: questa storia

L'importanza dei sensori di umidità

Un altro punto dove molti falliscono è l'umidità. L'aria troppo secca causa elettricità statica; l'aria troppo umida causa corrosione. Se lasci tutto acceso sperando che il calore dei server tenga lontana l'umidità, stai giocando alla roulette russa con l'ossidazione dei circuiti. Serve una gestione attiva, non una passiva basata sul calore di scarto.

Analisi del rischio tra hardware fisico e virtualizzazione

Oggi la virtualizzazione permette di spostare i carichi di lavoro in tempo reale. Se hai tre server fisici carichi al 30% ciascuno, tenerli tutti accesi è un errore finanziario. Un professionista serio configura il sistema in modo che, durante le ore notturne, tutte le macchine virtuali vengano spostate su un unico server fisico, permettendo agli altri due di entrare in modalità a basso consumo.

Questo processo non solo risparmia energia, ma distribuisce l'usura. Se tieni sempre tutto acceso, tutti i tuoi dischi fissi e i tuoi alimentatori avranno lo stesso numero di ore di volo e, con ogni probabilità, inizieranno a fallire nello stesso identico periodo. È il fenomeno del fallimento simultaneo che può distruggere un array RAID in poche ore. Spegnere e ruotare i carichi non è solo una questione di soldi, è una strategia di sopravvivenza dell'hardware a lungo termine.

  1. Identifica i carichi critici che non possono essere spenti (router principali, sistemi di sicurezza, server di produzione attivi).
  2. Mappa tutti i servizi che sono utilizzati solo in orario d'ufficio o che possono tollerare un ritardo di avvio di 5 minuti.
  3. Configura script di spegnimento automatico legati allo stato di carica dell'UPS (ad esempio, spegni tutto al di sotto del 40% di batteria rimasta).
  4. Implementa un sistema di monitoraggio che ti invii un avviso non quando un sistema è spento, ma quando consuma troppo pur essendo inattivo.
  5. Pianifica una finestra di manutenzione trimestrale in cui simuli un blackout totale per verificare che la procedura di ripartenza funzioni davvero.

Controllo della realtà

Smettiamola di raccontarci favole: la gestione perfetta dell'energia non esiste, esiste solo la riduzione del rischio calcolato. Se pensi che lasciare tutto acceso ti protegga dai problemi, stai solo accumulando calore, usura e costi che esploderanno tutti insieme nel momento meno opportuno. La tecnologia attuale è progettata per essere dinamica. Un sistema che non può essere spento e riacceso in modo controllato è un sistema rotto, non un sistema sicuro.

Non è il 1995; i dischi rigidi non si bloccano più meccanicamente solo perché si fermano i piatti, e gli alimentatori moderni hanno circuiti di protezione che i vecchi tecnici potevano solo sognare. Il vero successo in questo campo si misura in quanto poco tempo ci metti a tornare operativo dopo un disastro, non in quanti anni di "uptime" inutile puoi vantare sul tuo pannello di controllo. Se vuoi davvero proteggere la tua azienda, impara a gestire il buio, perché prima o poi arriverà comunque, e in quel momento l'unica cosa che conterà sarà la tua capacità di riaccendere tutto senza panico. L'efficienza è la forma più alta di sicurezza, e l'efficienza richiede il coraggio di staccare la spina a ciò che non serve.

GS

Gabriele Serra

Gabriele Serra segue i temi più discussi del momento con spirito critico e attenzione all'impatto sociale delle notizie.