October 21, 2025
Perché la bozza della nuova guidance ammette solo modelli statici nelle applicazioni GMP critiche.
Annex22
CSV
Fiducia
Prenderesti un farmaco sapendo che il processo di produzione cambia a ogni lotto?
Se la risposta è no, allora hai appena intuito perché l'EU GMP Annex 22 non rappresenta un freno all'innovazione ma la protezione di un sistema fiduciario consolidato che garantisce efficacia e sicurezza ai pazienti.
L'Annex 22, distribuito in bozza il 7 luglio 2025 e sottoposto a consultazione pubblica conclusa il 7 ottobre, rappresenta la prima linea guida europea dedicata specificamente all'utilizzo dell'Intelligenza Artificiale in ambito GMP.
Va considerata, come riportato negli scopi, una guidance addizionale ad Annex 11 per sistemi computerizzati che incorporano modelli di AI in applicazioni GMP critiche con impatto diretto su sicurezza del paziente, qualità del prodotto o integrità dei dati.
La bozza di Annex 22 sta sollevando un vivace dibattito nel settore farmaceutico. La discussione nasce dal fatto che l'Annex esclude, in ambienti GMP, l'uso di modelli dinamici, che apprendono e si adattano continuamente durante l'utilizzo, e vieta modelli probabilistici, che forniscono risultati in parte basati su ragionamenti probabilistici e possono generare output differenti a fronte di input identici. Questo esclude automaticamente dalle applicazioni critiche i modelli di Generative AI e i Large Language Models (LLM), che sono per natura probabilistici e non deterministici.
Nelle applicazioni GMP critiche sono ammissibili solo modelli statici e deterministici. Esempi tipici includono applicazioni manutenzione predittiva, ispezione visiva automatizzata e monitoraggio ambientale; non è un elenco esaustivo. La caratteristica che li rende compatibili con le GMP è che vengono addestrati una volta, poi "congelati" con parametri fissi e convalidati prima dell'uso in produzione: non modificano mai i propri parametri interni durante l'utilizzo operativo, garantendo quella predicibilità e riproducibilità che i modelli dinamici e probabilistici, per loro natura, non possono offrire.
Per le applicazioni non critiche (senza impatto diretto su sicurezza del paziente, qualità del prodotto o integrità dei dati), la bozza definisce le condizioni in cui l’uso di Generative AI e LLM è ammesso: supervisione continua da parte di personale qualificato (human-in-the-loop) e processi controllati con responsabilità finale all’operatore umano.
Alcuni critici vedono queste limitazioni come un ostacolo al progresso tecnologico. Ma probabilmente stanno guardando alla questione da una prospettiva parziale.
Raramente riflettiamo sulla fiducia come meccanismo economico e sociale, eppure governa ogni nostra decisione in settori dove non possiamo verificare direttamente la qualità del prodotto o servizio finito, che sia un farmaco, un prodotto finanziario derivato ecc.
Quando ad esempio prendiamo un medicinale, ci troviamo in una condizione di asimmetria informativa: una situazione in cui una delle parti coinvolte in una transazione possiede meno informazioni rispetto all'altra, creando un divario informativo che può generare incertezza e rischi. La mancanza di informazioni complete e simmetriche rende necessaria la fiducia per permettere la collaborazione e le transazioni, poiché non è possibile prevedere con certezza il comportamento dell'altra parte.
Il paziente che assume un medicinale è in asimmetria informativa perché non può analizzare la purezza del principio attivo, verificare la sterilità del processo o controllare la correttezza del dosaggio. Siamo costretti ad affidarci a una "catena di fiducia" che ha almeno quattro livelli: fiducia nel produttore, negli enti di controllo, nel sistema di validazione scientifica e negli intermediari (i medici) che ci consigliano.
Questa dinamica non è esclusiva del settore farmaceutico. Si ritrova, con meccanismi analoghi, ovunque l'asimmetria informativa renda impossibile la verifica diretta. Nei mercati finanziari, ad esempio, l'investitore che acquista un prodotto derivato complesso non può verificare direttamente la validità dei modelli matematici di pricing, la qualità degli algoritmi di risk management o l'accuratezza delle valutazioni dell'asset sottostante. Anche qui opera una catena di fiducia: negli intermediari finanziari, nelle autorità di vigilanza, nei modelli di valutazione approvati, negli auditor che certificano i processi. E anche qui, la fiducia si fonda sulla predicibilità e standardizzazione dei processi di valutazione e gestione del rischio.
Questa catena funziona solo se ogni anello mantiene la propria affidabilità attraverso la predicibilità e la standardizzazione. È la base contrattuale implicita tra chi produce e chi consuma.
Nel settore farmaceutico, questa esigenza di predicibilità si traduce in un requisito tecnico preciso: la validazione dei processi. Per chi frequenta le Scienze della Vita, è noto che la validazione è uno dei cardini su cui si basa l'impianto produttivo del farmaco, certificando proprio quell'invarianza del risultato di cui abbiamo parlato. Per processo validato si intende quindi un processo che, se ripetuto identicamente con le condizioni per come è stato progettato e testato, produce risultati costanti. Qualsiasi variazione delle condizioni di contesto del processo genera variazioni nell'output non controllabili: nei processi che hanno impatto sulla salute del paziente, le variazioni incontrollate equivalgono a rischi inaccettabili. Dire che un processo di produzione del farmaco è validato equivale quindi a dire: puoi fidarti, puoi assumere quel farmaco perché i rischi sono sotto controllo.
Il principio di invarianza del risultato attraverso la standardizzazione del processo non nasce quindi con l'Intelligenza Artificiale applicata al farmaceutico. Esiste da quando esistono le Good Manufacturing Practice, anzi è la base su cui sono costruite. Ogni procedura operativa standard, ogni parametro critico di processo, ogni specifica di controllo qualità applica lo stesso concetto: la riproducibilità controllata come garanzia di risultato predicibile.
Ed è proprio qui che i modelli dinamici e probabilistici di AI entrano in conflitto con questo paradigma. Per comprendere perché, dobbiamo guardare al framework normativo che li governa.
L'Annex 22 non introduce vincoli nuovi ma applica al machine learning i principi che già governano tutti i sistemi computerizzati in ambiente GMP. Per comprenderlo serve partire dall'Annex 11, che dal 2011 regola questi sistemi attraverso il concetto di Computer System Validation (CSV): la dimostrazione sistematica che un sistema fa quello che deve fare in modo consistente e riproducibile.
La CSV si basa su quattro pilastri: predicibilità (risultati identici per input identici), validabilità (performance verificabili attraverso test documentati), controllabilità (modifiche gestite con change control formale) e tracciabilità (documentazione completa di ogni azione). Questi principi altro non sono che l'applicazione al digitale dei cardini stessi delle GMP: ripetibilità, verificabilità, controllo e documentazione.
L'Annex 22 chiarisce come questi principi si applicano ai sistemi con modelli AI. Un modello dinamico che modifica autonomamente i propri parametri durante l'uso viola la predicibilità. Un modello probabilistico che genera output differenti per input identici contraddice la validabilità. Un modello dinamico che apprende continuamente senza controllo formale infrange controllabilità e tracciabilità. Ecco perché solo modelli statici e deterministici sono compatibili con applicazioni GMP critiche: non è un vincolo arbitrario ma la conseguenza logica dell'applicazione dei concetti che abbiamo appena esposto, e quindi anche della CSV, al machine learning.
Le organizzazioni che hanno sviluppato competenze solide in Computer System Validation si trovano naturalmente equipaggiate per validare modelli AI statici. Il salto concettuale è minimo perché i principi restano identici: cambia l'oggetto della validazione, non la metodologia. Al contrario, chi ha trascurato questi aspetti, considerando la CSV un adempimento burocratico piuttosto che una disciplina tecnica, si trova ora in difficoltà. Ma questa difficoltà non nasce dall'Annex 22: nasce da lacune preesistenti che l'AI rende semplicemente più evidenti.
LLM e modelli dinamici restano pienamente utilizzabili in applicazioni non critiche, purché implementati con supervisione umana costante (human-in-the-loop) e personale adeguatamente qualificato. Cosa significa "non critico"? Secondo l'Annex 22, tutte le applicazioni che non hanno impatto diretto su sicurezza del paziente, qualità del prodotto o integrità dei dati.
Alcuni critici lamentano che EMA non sia sufficientemente chiara su questa distinzione. In realtà è chiarissima. Il settore farmaceutico ragiona da decenni in termini di criticità ed impatto diretto su sicurezza del paziente e qualità del prodotto. Chi lavora nell'industria ha sviluppato la competenza professionale per discernere questo impatto: è la base di ogni decisione di criticità in ambiente GMP basata su una solida valutazione di rischio. La distinzione non è nuova né ambigua, è il fondamento di qualsiasi Quality Management System farmaceutico.
Anche per le applicazioni non critiche, l'Annex 22 stabilisce requisiti precisi: l'utilizzo è consentito esclusivamente con presenza obbligatoria dell'operatore umano nel processo decisionale e con approvazione sostanziale e formale di tutte le attività suggerite dall'algoritmo. L'AI può proporre, elaborare, supportare, ma non può mai decidere autonomamente. Ogni output deve passare attraverso la validazione critica di personale qualificato che mantiene la responsabilità finale delle decisioni.
Un'azienda farmaceutica può utilizzare ChatGPT o Claude per supporto alla redazione di report di deviazioni (un AI assistant facilita la stesura basata su input dell'investigatore, con capacità multilingue, ma ogni report richiede revisione e approvazione formale), ricerca e analisi di SOP (cercare, confrontare e riassumere procedure operative, identificando duplicazioni, sempre con validazione da parte degli esperti di processo), supporto alla formazione (generazione di contenuti didattici e materiali di training, sottoposti a revisione pedagogica e tecnica prima dell'utilizzo), e analisi predittiva in R&D (identificare pattern, ottimizzare formulazioni o predire risultati di studi, con interpretazione e validazione scientifica obbligatoria).
L’applicazione della procedura di Change Control resta una strada non solo percorribile ma necessaria per l'evoluzione dei sistemi AI. Aggiornamenti controllati, modifiche documentate e rivalidazioni mirate permettono l'innovazione progressiva senza compromettere i principi di qualità.
Per le applicazioni in ambito di Ricerca e Sviluppo (fuori perimetro della bozza finché i risultati non entrano in processi con impatto GMP), l’innovazione resta ampia: è possibile sperimentare anche modelli dinamici e probabilistici. Restano però indispensabili governance ed etica "by design": obiettivi e rischi dichiarati ab origine; data governance e privacy; gestione dei bias; tracciabilità degli esperimenti; documentazione e riesaminabilità tecnica. Temi su cui torneremo in un approfondimento dedicato.
Abbiamo esaminato finora gli aspetti tecnici e normativi dell'Annex 22: cosa permette, cosa vieta, come si collega alla Computer System Validation. Ma ridurre questo documento a una questione puramente procedurale significherebbe perdere di vista la sua vera natura. Le scelte tecniche dell'Annex 22 non sono neutrali: sono l'espressione concreta di valori più profondi che riguardano il rapporto tra innovazione e responsabilità, tra possibilità tecnologica e scelta etica. Dietro i vincoli sui modelli dinamici e probabilistici, dietro i requisiti di validazione, dietro l'insistenza sulla predicibilità, c'è una domanda fondamentale che ogni società deve porsi quando adotta nuove tecnologie in ambiti critici per la vita umana.
Torniamo quindi alla domanda iniziale: prenderesti un farmaco sapendo che il processo di produzione cambia a ogni lotto? La risposta istintiva è no, perché intuitivamente comprendiamo che la sicurezza richiede predicibilità.
L'Annex 22 non è quindi una barriera all'innovazione. È il riconoscimento che EMA, come tutti gli enti regolatori, fa quello che ha sempre fatto: salvaguardare la fiducia dei cittadini garantendo efficacia e sicurezza dei medicinali. Usare modelli dinamici o probabilistici di AI nelle applicazioni critiche non lo permetterebbe.
I modelli statici deterministici non sono una limitazione tecnologica ma una scelta di civiltà. Rappresentano la consapevolezza che in alcuni ambiti della vita umana - la salute, la sicurezza, la sopravvivenza - non c'è spazio per la variabilità incontrollata. Serve certezza, serve predicibilità, serve quel principio di invarianza che permette alla società di fidarsi delle istituzioni e dei processi che proteggono la vita.
Chi critica l'Annex 22 come "freno all'innovazione" sta quindi guardando dalla prospettiva parziale e rischiosa. Non si tratta di innovare meno, ma di innovare meglio. Di scegliere tecnologie mature invece di tecnologie immature. Di privilegiare la solidità sulla spettacolarità.
Il settore farmaceutico ha una responsabilità che va oltre la tecnologia: ha la responsabilità verso i pazienti che si affidano ai suoi prodotti, verso i sistemi sanitari che li utilizzano, verso la società che li regolamenta. Questa responsabilità richiede una forma superiore di innovazione, quella che non chiede "possiamo farlo?" ma "dovremmo farlo?"
L'innovazione vera non è fare tutto quello che è tecnicamente possibile, ma fare quello che è umanamente responsabile.
Quindi, giocheresti a dadi con la tua salute? I modelli probabilistici funzionano esattamente così: lanciano un dado ogni volta che elaborano una decisione. Possono generare risultati differenti per input identici, introducendo quella variabilità che nelle applicazioni critiche equivale a rischio inaccettabile.
L'Annex 22 non vieta di giocare a dadi. Dice semplicemente che con la salute dei pazienti non si gioca.
La consultazione pubblica sull'Annex 22 si è conclusa pochi giorni fa. EMA sta ora esaminando i feedback ricevuti dagli stakeholder per preparare la versione finale della linea guida, integrando le osservazioni raccolte dal settore farmaceutico. Questo processo di integrazione rappresenta un momento cruciale: le osservazioni permetteranno di affinare il framework normativo mantenendo l'equilibrio tra protezione dei pazienti e supporto all'innovazione responsabile.
Per le aziende, questo periodo di attesa non deve essere passivo. È il momento per valutare il proprio livello di preparazione sui principi di validazione dei sistemi computerizzati, identificare le applicazioni AI critiche e non critiche in uso, e formare il personale. Le organizzazioni che utilizzeranno questo tempo per prepararsi adeguatamente si troveranno equipaggiate quando arriverà la versione finale del documento.
Scopri di più
Vai al case study