Discover Top Posts Tagged with #fault tolerance

Popular Recent

Designing for sabotage: this salt dispenser can easily be unscrewed to make refilling easier. It also results in mischievous customers being able to loosen the lid, resulting in a torrent of salt for the next customer. The bartender says it is common.

#UX #sabotage #fault tolerance #failing gracefully

The Discipline of Chaos Engineering

To put it simply, Chaos Engineering is one particular approach to “breaking things on purpose” that aims at teaching us something new about systems by performing experiments on them. Ultimately, our goal is to identify hidden problems that could arise in production. Only then will we be able to address systemic weaknesses and make our systems fault-tolerant. Chaos Engineering goes beyond traditional (failure) testing in that it’s not only about verifying assumptions. It also helps us explore the many unpredictable things that could happen and discover new properties of our inherently chaotic systems.

via https://blog.gremlininc.com/the-discipline-of-chaos-engineering-e39d2383c459

#Medium #Chaos Engineering #resilience #chaos #fault tolerance #netflix #gremlin

"Democracy was a shit system, but it was better than the alternatives, and she was in no position to declare her crew the new masters of the universe. Bad enough that anyone who knew they were involved in this mess would probably be gunning for them after this"

- from Fault Tolerance by Valerie Valdes

#book quotes #valerie valdes #democracy #fault tolerance #chilling effect

"Her guts settled thanks to the return of gravity, but the disorientation persisted through several deep breaths as she lay on the floor, staring up at the unfamiliar ceiling. A shadow fell over her: Pink, crouched next to her with her eye patch flipped up, scrutinizing Eva with her cybernetic eye.

“What’s up, Doc?” Eva asked.

“Your adrenaline levels,” Pink replied. “You’re gonna crash for a week when this is over.”

“Bold of you to assume I won’t be dead,” Eva said.

“That’s just my cheerful bedside manner.” She finished her examination and stood up. “You’re not dead yet, so get your ass in gear.”

- from Fault Tolerance by Valerie Valdes

#book quotes #valerie valdes #fault tolerance #chilling effect

"No love, just business. Why had she expected otherwise? Maybe because she had done something wildly unwise and, while blaming love was a convenient excuse, she had to admit it was mostly fear. Fear that something had happened to him, that he was too far away for her to help, that she’d never see him or smell him again. With the fate of the universe allegedly resting on her shoulders, at least in part, had come a sense of power and agency she hadn’t felt in years. ... So here she was, scrambling for a sense of control over what had been, until a few minutes earlier, a gaping void of insecurity and worry and ignorance. Now she knew Vakar was fine, but it didn’t make a damn bit of difference to her mission, except she’d wasted a bunch of time she and her crew didn’t have, and put the whole universe on the line to fix her own feelings."

-from Fault Tolerance by Valerie Valdes

#fault tolerance #book quotes #valerie valdes

Quantum Hardware Round-Up – June 2026 The quantum computing industry is shifting focus from qubit count to logical qubits and fault tolerance, emphasizing usability and integration into real-world applications over mere hardware specifications.... https://thequantumspace.org/2026/06/02/quantum-hardware-round-up-june-2026/

#EuroHPC #fault tolerance #Google Quantum AI #HPC #IBM Quantum #logical qubits #Post-Quantum Cryptography #Quantinuum #Quantum Computing #quantum ecosystem #Quantum Flagship #quantum hardware #quantum infrastructure #quantum roadmap #TQS Insight

Harvard's Quantum Shift

Quantum Computing Timeline Changes For years, the quantum industry has lived with a phrase that became somewhere between a joke and a criticism: quantum computing is always ten years away. Every announcement seemed to promise acceleration. Every breakthrough supposedly changed everything. And yet the commercial reality never quite caught up with the headlines. Now that conversation may finally…

#cryptographic transition #Digital Trust #enterprise security #fault tolerance #Harvard quantum research #logical qubits #Post-Quantum Cryptography #PQC migration #Quantum Computing #Quantum Cybersecurity #Quantum Error Correction #quantum infrastructure #quantum networking #quantum readiness #quantum timelines

Technology solutions and open source projects by Red Dot Rocket

Immaginate questo : avete in mano un dispositivo contenente miliardi di numeri calibrati con precisione, ognuno cruciale per il suo funzionamento. Ora immaginate che un raggio cosmico attraversi l'atmosfera, attraversi il vostro tetto, il vostro computer e inverta un singolo bit in uno di quei numeri. Ora immaginate che il dispositivo sia un Large Language Model: cosa succede dopo?

Molto probabilmente, niente di niente.

Non è fantascienza. I raggi cosmici invertono continuamente i bit nella memoria del computer ( i raggi cosmici sono un problema che mi preoccupava molto quando ho lanciato per la prima volta il Transparency Log di Sigstore), eppure, quando impattano su grandi modelli linguistici in esecuzione su server in tutto il mondo, continuano a funzionare perfettamente. Il motivo rivela qualcosa di davvero interessante sulle somiglianze tra reti neurali artificiali e cervelli biologici.

L'architettura della ridondanza

Quando pensiamo all'ingegneria di precisione, di solito immaginiamo sistemi in cui ogni componente è importante. Rimuovi un ingranaggio da un orologio svizzero e smette di ticchettare. Modifica una sola riga di codice in un programma e potrebbe bloccarsi completamente. Ma le reti neurali operano secondo principi completamente diversi, e per capirne il motivo è necessario dare un'occhiata all'interno dei meccanismi matematici che alimentano l'intelligenza artificiale moderna.

Un modello linguistico di grandi dimensioni come GPT-5 contiene tra centinaia di miliardi e migliaia di miliardi di parametri. Questi non sono solo slot di archiviazione per i dati, ma sono le connessioni apprese tra neuroni artificiali, ognuno dei quali codifica un minuscolo frammento di conoscenza sul linguaggio, sul ragionamento e sugli schemi nascosti nella comunicazione umana. Quando si chiede a un modello di completare una frase o risolvere un problema, si osservano questi miliardi di numeri collaborare in modi che nemmeno i loro creatori comprendono appieno .

Ma ecco la parte affascinante: la maggior parte di questi parametri non sono specialisti insostituibili. Sono più simili a membri di una vasta folla, in cui la perdita di una voce individuale influisce a malapena sulla conversazione complessiva.

Quando i numeri vanno male

Per comprendere appieno la reale robustezza di questi sistemi, i ricercatori hanno condotto quelli che possono essere descritti solo come esperimenti di vandalismo digitale. Corrompono deliberatamente parametri casuali nei modelli addestrati, danneggiando di fatto parti del "cervello" dell'IA, per poi misurarne le prestazioni.

I risultati sono controintuitivi. È possibile corrompere migliaia, persino decine di migliaia di parametri in un modello da miliardi di parametri, e questo genererà comunque un testo coerente, risponderà correttamente alle domande ed eseguirà ragionamenti complessi. È come se prendessi un'orchestra imponente e togliessi casualmente l'audio a decine di musicisti, solo per scoprire che la sinfonia suona praticamente identica.

Questa resilienza non è casuale, ma emerge dal processo di addestramento stesso. Quando una rete neurale apprende dai dati, non si limita a memorizzare i fatti come fa un database. Piuttosto, sviluppa molteplici rappresentazioni sovrapposte degli stessi concetti. L'idea di "gatto" potrebbe essere codificata attraverso migliaia di parametri diversi, con vari sistemi di backup e percorsi alternativi, tutti in grado di riconoscere i felini.

La geografia dell'importanza

Tuttavia, non tutti i parametri sono uguali, ed è qui che la questione si fa più complessa. Le reti neurali hanno una propria geografia di importanza, con alcune regioni che sono molto più critiche di altre.

Immaginate il modello come una vasta città. Gli strati di output, dove vengono formulate le previsioni finali, sono come il centro città. Se i parametri sono corrotti, potreste compromettere la capacità del modello di comunicare i propri pensieri in modo coerente. Potrebbe "conoscere" internamente la risposta giusta, ma non essere in grado di esprimerla correttamente. Questi strati sono l'equivalente digitale dell'area di Broca nel cervello umano, dove un danno può lasciare intatta la comprensione ma distruggere la capacità di parlare.

I meccanismi di attenzione che aiutano i modelli a concentrarsi sulle parti rilevanti del loro input sono come i nodi di trasporto di questa città neurale. Un danno in questo caso potrebbe non impedire al modello di funzionare, ma potrebbe renderlo incline a distrarsi o a perdere importanti indizi contestuali. Un modello con pesi di attenzione alterati potrebbe improvvisamente diventare incapace di seguire istruzioni complesse o di mantenere argomenti coerenti durante lunghe conversazioni.

I livelli iniziali presentano un caso di studio affascinante. Elaborano l'input grezzo e creano le rappresentazioni fondamentali su cui si basa tutto il resto. In questo caso, parametri corrotti possono causare errori che possono diffondersi a cascata nell'intera rete, come un messaggio sussurrato che viene distorto mentre attraversa una folla. Eppure, anche in questo caso, la ridondanza spesso fornisce una protezione sorprendente.

Lezioni dal mondo reale

La robustezza teorica delle reti neurali non è solo una curiosità accademica, ma si manifesta quotidianamente nel mondo reale. I provider di cloud computing che eseguono questi modelli su larga scala occasionalmente riscontrano guasti hardware, inversioni di bit dovute ai raggi cosmici e altri gremlin digitali che corrompono la memoria. Nella maggior parte dei casi, i modelli continuano a funzionare senza che nessuno si accorga di nulla.

Ciò ha portato ad alcune interessanti applicazioni pratiche. Il settore dell'intelligenza artificiale ha adottato tecniche come la quantizzazione, che riduce deliberatamente la precisione dei parametri per risparmiare memoria e risorse di calcolo. Laddove un parametro potrebbe essere originariamente memorizzato come un numero in virgola mobile a 32 bit, la quantizzazione potrebbe comprimerlo a soli 8 bit o anche meno. Tecnicamente, questa è una forma di corruzione controllata: stiamo eliminando informazioni e introducendo piccoli errori in tutto il modello.

La cosa notevole è che i modelli spesso funzionano quasi identicamente anche con questa drastica riduzione di precisione. Un modello che originariamente richiedeva gigabyte di spazio di archiviazione potrebbe essere compresso a una frazione di quella dimensione senza perdere quasi nessuna capacità. È come se si potesse rimuovere il 75% delle parole da un romanzo e raccontare comunque la stessa storia con la stessa efficacia.

I limiti della resilienza

Naturalmente, le reti neurali non sono invulnerabili. Se si spinge la corruzione troppo oltre, anche il modello più robusto crollerà. Le modalità di guasto, quando si verificano, possono essere davvero spettacolari.

Una corruzione casuale massiva tende a produrre quello che i ricercatori chiamano "collasso modale": il modello si blocca generando testo ripetitivo e privo di significato o fornisce risposte completamente insensate a domande semplici. È come osservare una persona con gravi danni cerebrali che riesce ancora a formare parole ma ha perso ogni connessione con il significato.

Più insidiosa è la corruzione mirata, in cui un aggressore modifica deliberatamente parametri specifici per creare backdoor o guasti sistematici. A differenza degli errori casuali, questi attacchi chirurgici possono potenzialmente far sì che un modello si comporti normalmente per la maggior parte del tempo, fallendo però in modo catastrofico in determinate condizioni. Questa rappresenta una delle sfide emergenti per la sicurezza nell'implementazione dell'IA.

Cosa ci dice questo sull'intelligenza

La resilienza dei grandi modelli linguistici offre spunti intriganti sulla natura stessa dell'intelligenza. I programmi informatici tradizionali sono fragili, falliscono catastroficamente anche quando si rompono piccole parti. Ma il cervello, come le reti neurali, sembra funzionare secondo principi di degradazione graduale e codifica ridondante.

Quando gli esseri umani subiscono lesioni cerebrali, gli effetti sono spesso localizzati e specifici, piuttosto che catastrofici. I danni a determinate aree potrebbero influenzare la formazione della memoria, lasciando intatta la capacità di problem-solving, o influire sulla produzione linguistica, preservandone la comprensione. Questo rispecchia ciò che osserviamo nelle reti neurali artificiali, suggerendo che sia l'intelligenza biologica che quella artificiale potrebbero basarsi su principi organizzativi simili.

La ridondanza che osserviamo nei modelli linguistici potrebbe anche spiegare perché questi sistemi possano generalizzare così efficacemente a compiti per i quali non sono mai stati addestrati in modo esplicito. Quando la conoscenza è codificata attraverso milioni di percorsi sovrapposti, diventa possibile creare nuove connessioni e applicare le conoscenze esistenti in modi creativi.

Il futuro dell'intelligenza artificiale fault-tolerant

Comprendere la resilienza delle reti neurali ha implicazioni pratiche per l'implementazione dei sistemi di intelligenza artificiale in applicazioni critiche. Se i modelli riescono a continuare a funzionare anche in caso di significativa corruzione dei parametri, potrebbero essere adatti ad ambienti in cui l'affidabilità dell'hardware è un problema, come missioni spaziali, applicazioni militari o dispositivi di edge computing in cui le riparazioni sono impossibili.

Questa ricerca fornisce anche indicazioni su come potremmo costruire sistemi di intelligenza artificiale ancora più robusti. Studiando quali parametri sono più critici e come gli errori si propagano attraverso le reti, i ricercatori stanno sviluppando nuove architetture che massimizzano la resilienza mantenendo inalterate le prestazioni.

Forse la cosa più intrigante è che la tolleranza ai guasti di questi modelli suggerisce che l'intelligenza, artificiale o biologica, potrebbe consistere fondamentalmente nel creare rappresentazioni del mondo robuste e ridondanti. In un universo in cui i raggi cosmici scambiano bit e i neuroni muoiono quotidianamente, la capacità di mantenere un pensiero coerente nonostante piccoli e costanti errori potrebbe non essere solo utile, ma essenziale.

La prossima volta che interagisci con un sistema di intelligenza artificiale, ricorda che stai comunicando con miliardi di numeri che lavorano all'unisono, molti dei quali imperfetti, alcuni dei quali potenzialmente corrotti da forze al di fuori del nostro controllo, eppure in qualche modo riescono comunque a comprendere la tua domanda e a elaborare una risposta significativa. È un promemoria del fatto che la resilienza, piuttosto che la precisione, potrebbe essere il vero segno distintivo dell'intelligenza.

#fault tolerance