Progetto Frequenze²: quando l'intenzione artistica incontra l'intelligenza artificiale

Un’analisi sperimentale e teorica sui limiti del prompting descrittivo nella generazione musicale automatica e sulla formalizzazione del concetto di “trasferimento d’intenzione”

di Salvatore Martino

Nota metodologica preliminare: In questo documento ogni affermazione è etichettata secondo uno dei quattro registri epistemici seguenti, per evitare la confusione — frequente nella letteratura divulgativa sull’intelligenza artificiale generativa — tra ciò che è stato osservato, ciò che è stato ipotizzato, ciò che è stato dedotto e ciò che è interpretazione soggettiva dell’autore:

[OS] Osservazione sperimentale — fatto direttamente riscontrato durante gli esperimenti con Suno.
[IP] Ipotesi — congettura formulata per spiegare un insieme di osservazioni, non ancora verificata in modo sistematico.
[DED] Deduzione — conclusione logica derivata da osservazioni e ipotesi già stabilite.
[INT] Interpretazione — lettura soggettiva, filosofica o estetica, non falsificabile nello stesso senso delle categorie precedenti.

Questa etichettatura è mantenuta per l’intero documento, comprese le sezioni teoriche.

1. Introduzione

Il presente documento ricostruisce e formalizza un percorso sperimentale condotto dall’autore, Salvatore Martino, nell’uso del modello generativo musicale Suno per la produzione di una composizione originale per solo pianoforte classico. Ciò che inizialmente si presentava come un problema tecnico circoscritto — ottenere un brano stilisticamente coerente, privo di strumentazione aggiuntiva e di deviazioni timbriche indesiderate — si è progressivamente trasformato in un’indagine più ampia sul rapporto tra linguaggio naturale, intenzione artistica e interpretazione algoritmica.

Il documento non ha finalità promozionali né commerciali. Non intende presentare Suno come strumento superiore o inferiore ad altri sistemi di generazione musicale, né fornire una guida all’uso ottimale del prodotto. Il suo scopo è un altro: usare un caso di studio concreto, tecnicamente circoscritto (il pianoforte solo), come lente attraverso cui osservare un problema più generale, che riguarda tutta la classe dei modelli generativi guidati da prompt testuali — il problema del trasferimento dell’intenzione.

Da questo percorso nasce il Progetto Frequenze², la cui tesi centrale può essere anticipata in una forma sintetica: il prompt non genera l’opera; il prompt tenta di trasferire una struttura intenzionale che precede l’opera, e il grado di riuscita di questo trasferimento — non la sofisticazione lessicale del prompt — determina la fedeltà del risultato.

2. Contesto tecnologico

Suno è un sistema di generazione musicale basato su modelli di apprendimento profondo, che produce audio a partire da istruzioni testuali (denominate comunemente “prompt”), suddivise tipicamente in un campo descrittivo dello stile musicale (Style) e, quando previsto, un campo per il testo cantato (Lyrics). Come la generalità dei modelli generativi testo-condizionati (che siano essi text-to-image, text-to-video o text-to-music), il sistema non “comprende” la musica nel senso in cui la comprende un musicista formato, ma apprende correlazioni statistiche tra descrizioni testuali e pattern audio osservati in un vasto corpus di addestramento.

[OS] Nel caso specifico della musica strumentale classica per pianoforte solo, questo comporta una caratteristica strutturale rilevante: il corpus di addestramento musicale contiene con ogni probabilità una quantità relativamente esigua di materiale genuinamente monotimbrico (solo pianoforte, senza orchestrazione, senza climax orchestrale) rispetto alla quantità di materiale che associa “musica classica” a formazioni orchestrali o cameristiche più ricche. Questo squilibrio nella distribuzione dei dati di addestramento costituisce, come si vedrà, uno dei fattori esplicativi più plausibili dei comportamenti osservati.

[IP] È ragionevole ipotizzare che il modello abbia appreso un’associazione statistica forte tra il concetto astratto di “brano classico” e strutture narrative musicali che includono crescendo, ampliamento timbrico e climax — indipendentemente dalla richiesta esplicita di mantenere un unico strumento.

Va precisato che l’autore non ha avuto accesso all’architettura interna del modello, ai suoi pesi o ai dettagli del corpus di addestramento. Tutte le affermazioni relative al funzionamento interno di Suno sono quindi ipotesi o deduzioni costruite a partire da comportamenti osservati esternamente (approccio black-box), non asserzioni verificate sul codice sorgente o sui dati di training.

3. Limiti osservati nei modelli generativi musicali

Prima di descrivere la cronologia specifica degli esperimenti, è utile isolare la classe generale di limiti che il caso di studio ha reso visibili. Questi limiti non sono esclusivi di Suno: appartengono, con variazioni di grado, a gran parte dei sistemi generativi condizionati da testo.

[OS] Comportamenti ricorrenti osservati nel corso degli esperimenti:

Tendenza ad aggiungere strumenti non richiesti (in particolare archi) anche in presenza di istruzioni esplicite di esclusione.
Tendenza ad accelerare il tempo nella parte centrale o finale del brano.
Costruzione pressoché automatica di un climax, anche quando l’indicazione era di mantenere un profilo dinamico stabile o discendente.
Interpretazione creativa delle istruzioni, con deviazioni sistematiche rispetto al contenuto letterale del prompt.
Rispetto solo parziale delle istruzioni fornite, con un tasso di aderenza variabile e non facilmente prevedibile a priori.
Risposta migliore a vincoli formulati ex ante (come regole strutturali da rispettare fin dall’inizio) rispetto a descrizioni ex post del risultato atteso.
Peso apparentemente maggiore del campo Style rispetto al testo descrittivo esteso, nel determinare l’esito sonoro.
Difficoltà a mantenere un’unica timbrica (pianoforte solo) per l’intera durata del brano, con la comparsa di elementi aggiuntivi tipicamente nella seconda metà della generazione.

[DED] Da queste osservazioni si può dedurre che il modello non tratti il prompt come un insieme di vincoli rigidi da soddisfare, ma come un punto di partenza semantico da cui generare una traiettoria musicale plausibile secondo le regolarità apprese — una traiettoria che tende a convergere verso schemi narrativi “tipici” del genere evocato, anche a scapito della fedeltà letterale alle istruzioni.

[IP] Questo comportamento è compatibile con l’ipotesi che il modello operi per “somiglianza a un prototipo” (prototype matching) più che per soddisfacimento di vincoli (constraint satisfaction) — una distinzione concettuale mutuata dalla teoria della categorizzazione in psicologia cognitiva, qui applicata per analogia al dominio musicale e non verificata direttamente sull’architettura di Suno.

4. Cronologia degli esperimenti

La tabella seguente riassume, in forma sintetica, le principali fasi sperimentali attraversate. I nomi delle fasi sono stati assegnati a posteriori dall’autore per finalità espositive; non corrispondono a categorie ufficiali del sistema.

FaseApproccio adottatoIpotesi di lavoroEsito prevalente1Prompt descrittivo generico (“pianoforte classico, malinconico, lento”)Una descrizione ricca guida il risultatoComparsa di archi, climax orchestrale2Prompt positivo rinforzato (ripetizione di “solo piano”, “no orchestra”)La ripetizione aumenta l’aderenzaAderenza parziale, ancora presenza di climax3Prompt negativo esplicito (liste di esclusione: no strings, no crescendo, no tempo change)Le esclusioni esplicite riducono le deviazioniRiduzione parziale ma non totale delle deviazioni4Prompt misto (positivo + negativo bilanciato)La combinazione compensa i limiti dei due approcci singoliMiglioramento marginale, non risolutivo5Vincoli gerarchici (ordine di priorità dichiarato tra le istruzioni)Dichiarare una gerarchia induce il modello a rispettarlaMiglior aderenza ai vincoli dichiarati come prioritari, ma non garanzia assoluta6Seme armonico (indicazione di una progressione armonica di riferimento)Ancorare l’armonia riduce la deriva strutturaleMaggiore coerenza armonica, minore controllo su timbro e dinamica7Seme melodico (cellula melodica di riferimento)Ancorare la melodia guida l’intero branoRiconoscibilità del materiale melodico, ma non blocco delle aggiunte strumentali8Descrizione artistica (linguaggio evocativo, immagini, atmosfere)Il linguaggio artistico è più “nativo” per un modello addestrato su descrizioni similiRisultati esteticamente coerenti ma strutturalmente meno prevedibili9Approccio tecnico (terminologia musicale formale: tempo, dinamiche, articolazioni)La precisione tecnica riduce l’ambiguitàMiglior controllo puntuale, minore controllo sulla forma complessiva10Approccio emozionale (descrizione dello stato affettivo da trasmettere)L’emozione dichiarata guida coerentemente la generazioneCoerenza emotiva percepita buona, ma non correlata linearmente al controllo strutturale

[OS] Nessuna delle configurazioni sperimentate, isolatamente o in combinazione, ha garantito il controllo pieno e ripetibile del risultato in tutte le sue dimensioni (timbro, dinamica, tempo, forma).

[DED] Questa assenza di garanzia, ottenuta attraverso approcci tra loro metodologicamente molto diversi (tecnico, artistico, emozionale, positivo, negativo, gerarchico), suggerisce che il problema non risieda primariamente nella scelta lessicale del prompt, ma in una caratteristica più strutturale del rapporto tra istruzione testuale e generazione audio.

5. Analisi dei risultati

5.1 Diagramma del flusso generativo osservato

INTENZIONE PROMPT OUTPUT
DELL’AUTORE —–> TESTUALE —–> AUDIO
(struttura mentale, (rappresentazione (interpretazione
idea di forma, parziale e lineare statistica del
di timbro, di dell’intenzione) prompt, soggetta
intenzione emotiva) a “gravità” verso
pattern appresi)

perdita di | perdita di informazione (1) | informazione (2) |[non tutta l’idea è [non tutto il testo [il risultato nontraducibile in testo] è “pesato” allo stesso è mai identico
modo dal modello] al testo, per viadella naturaprobabilisticadella generazione]

[INT] Questo schema propone una lettura del processo generativo come catena con due punti di perdita di informazione distinti e cumulativi: una prima perdita nel passaggio dall’intenzione mentale al testo (limite del linguaggio naturale come codice di rappresentazione dell’intenzione), una seconda nel passaggio dal testo all’audio (limite del modello come interprete probabilistico del testo). Il prompt engineering tradizionale agisce quasi esclusivamente sulla seconda perdita, ignorando la prima.

5.2 Tabella comparativa: aderenza percepita per tipologia di vincolo

Tipo di vincoloAderenza timbrica (solo piano)Aderenza dinamica (assenza di climax)Aderenza di tempo (stabilità)NotaDescrittivo genericoBassaBassaBassaMassima libertà interpretativa lasciata al modelloPositivo rinforzatoMedio-bassaBassaBassaLa ripetizione non equivale a vincolo strutturaleNegativo esplicitoMediaMediaMediaLe esclusioni riducono ma non eliminano la derivaGerarchicoMedio-altaMediaMediaLa dichiarazione di priorità sembra il fattore più efficace tra quelli testatiSeme armonicoMediaBassaMediaStabilizza il “cosa” armonico, non il “come” timbricoSeme melodicoMediaBassaMedio-bassaStabilizza il materiale tematico, non la formaStyle-driven (campo Style prevalente)Medio-altaMediaMediaCoerente con l’osservazione [OS] sul peso del campo Style

[OS] I valori riportati in tabella sono stime qualitative dell’autore basate sull’ascolto ripetuto degli output, non misurazioni quantitative ottenute con strumenti di analisi audio automatica (ad esempio rilevamento di picchi strumentali o analisi spettrale). Questo costituisce un limite metodologico esplicito, discusso nella sezione 15.

[DED] Il vincolo gerarchico e il campo Style risultano, nella percezione dell’autore, i due fattori con maggiore capacità di orientare il risultato — sebbene nessuno dei due garantisca aderenza totale. Questo è coerente con l’ipotesi che il modello assegni “pesi” impliciti diversi a porzioni diverse dell’istruzione, piuttosto che trattare l’intero prompt come un vincolo unico e omogeneo.

6. Errori iniziali

È opportuno documentare esplicitamente gli errori metodologici commessi nelle prime fasi sperimentali, poiché la loro individuazione ha costituito il vero motore dell’evoluzione verso il Progetto Frequenze².

[OS] Errore 1 — Sovraccarico descrittivo. Nelle prime fasi, l’autore ha tentato di aumentare il controllo aggiungendo un numero crescente di aggettivi e dettagli descrittivi, assumendo implicitamente che “più informazione nel prompt” equivalesse a “più controllo sul risultato”. Questo presupposto si è rivelato parzialmente errato: oltre una certa soglia di densità descrittiva, l’aggiunta di dettagli non migliorava l’aderenza e in alcuni casi introduceva ambiguità aggiuntive, poiché descrittori diversi potevano essere in tensione semantica tra loro (ad esempio, termini evocativi di intensità emotiva sembravano associarsi statisticamente a costruzioni di climax).

[OS] Errore 2 — Confusione tra vincolo e desiderio. Molte formulazioni iniziali esprimevano il risultato desiderato in forma di dichiarazione di stato (“il brano è composto da solo pianoforte”) anziché in forma di vincolo comportamentale esplicito e prioritario. La differenza si è rivelata rilevante nella pratica, per quanto difficile da isolare con precisione causale in un sistema black-box.

[OS] Errore 3 — Assenza di gerarchia esplicita. Nei prompt misti (positivi e negativi combinati), l’assenza di un ordine di priorità dichiarato lasciava il modello libero di risolvere eventuali conflitti impliciti tra istruzioni secondo le proprie regolarità statistiche interne, anziché secondo le intenzioni dell’autore.

[OS] Errore 4 — Assunzione di linearità. L’autore ha inizialmente assunto un rapporto lineare tra sofisticazione del prompt e qualità/fedeltà del risultato. Gli esperimenti hanno mostrato una relazione non lineare e non monotona: prompt più semplici e mirati hanno talvolta prodotto risultati più fedeli di prompt più elaborati.

[DED] L’insieme di questi errori converge verso una diagnosi comune: il problema non era la quantità o la qualità lessicale delle istruzioni, ma il tipo di rappresentazione che si stava tentando di trasferire. Si stava cercando di descrivere l’effetto desiderato (il suono finale) anziché comunicare la struttura intenzionale che lo genera (la logica, la gerarchia, la forma mentale del brano).

7. Evoluzione della metodologia

La metodologia sperimentale si è evoluta attraverso tre stadi concettuali distinti, qui ricostruiti in retrospettiva.

Stadio I — Descrizione del risultato. Il prompt tenta di descrivere l’output desiderato (“un brano triste, lento, solo pianoforte, senza climax”). Questo stadio tratta il modello come un traduttore diretto da descrizione a audio.

Stadio II — Imposizione di vincoli. Il prompt tenta di imporre regole comportamentali esplicite, spesso in forma di liste positive/negative e gerarchie dichiarate (“priorità 1: nessuno strumento oltre il pianoforte; priorità 2: tempo costante; priorità 3: dinamica contenuta”). Questo stadio tratta il modello come un sistema vincolato (constraint-based), mutuando implicitamente logiche proprie della programmazione dichiarativa.

Stadio III — Trasferimento dell’intenzione. Il prompt tenta di comunicare non il risultato né soltanto le regole, ma la logica generativa che un compositore userebbe per costruire il brano: la funzione di ciascuna sezione, il rapporto tra le parti, il “perché” strutturale delle scelte, non solo il “cosa”. È in questo terzo stadio che nasce concettualmente il Progetto Frequenze².

STADIO I STADIO II STADIO III

descrizione vincolo intenzione dell’effetto —–> del comportamento —–> strutturale (“che suono deve (“che cosa il modello (“perché il brano avere il brano”) non deve fare”) è fatto così”) basso controllo controllo intermedio massimo trasferimento (osservato) (osservato) possibile con il linguaggio naturale (ipotizzato, non pienamente verificato)

[IP] Si ipotizza che il passaggio dallo Stadio II allo Stadio III non elimini le deviazioni comportamentali descritte nella sezione 3, ma ne modifichi la natura: da deviazioni “arbitrarie” rispetto a un’intenzione non comunicata, a variazioni “interpretative” rispetto a un’intenzione comunicata ma non totalmente vincolante. Questa distinzione, per quanto sottile, è centrale nella tesi del progetto ed è discussa nella sezione 11.

8. Dalla descrizione al trasferimento dell’intenzione

Il punto di svolta concettuale del percorso sperimentale può essere formulato come segue: descrivere un risultato non equivale a comunicare l’intenzione che lo produce.

[INT] Un compositore che scrive per pianoforte solo non pensa, nel momento della composizione, “voglio che il timbro rimanga pianoforte per tutta la durata”. Pensa, piuttosto, in termini di funzione strutturale: questa sezione stabilisce un’idea, questa la sviluppa, questa la sospende, questa la conclude senza risoluzione. Il vincolo timbrico (solo pianoforte) è una conseguenza del mezzo scelto, non l’oggetto primario del pensiero compositivo. Quando si comunica a un modello generativo soltanto il vincolo di superficie (“solo pianoforte”) senza la logica strutturale sottostante, si trasferisce un dato ma non un’intenzione — e il modello, privo della logica, tende a colmare il vuoto con le proprie regolarità apprese, spesso convergendo verso schemi che includono l’ampliamento orchestrale, poiché tali schemi sono statisticamente associati alla nozione appresa di “sviluppo musicale”.

[IP] Da questa osservazione nasce l’ipotesi centrale del progetto: se è possibile trasferire non solo il vincolo di superficie ma anche, per quanto imperfettamente, la logica strutturale che lo giustifica, la probabilità che il modello rispetti il vincolo aumenta — non perché il vincolo sia diventato più esplicito, ma perché è diventato più coerente con l’intera traiettoria generativa richiesta, riducendo la “tensione” statistica tra istruzione e pattern appreso.

Questa ipotesi non è stata sottoposta, nell’ambito degli esperimenti qui documentati, a verifica quantitativa controllata (si veda la sezione 15 sui limiti). Resta, allo stato attuale, un’ipotesi plausibile e coerente con le osservazioni raccolte, non una legge dimostrata.

9. Definizione teorica del Progetto Frequenze²

Si propone la seguente definizione operativa:

Progetto Frequenze²: framework teorico-metodologico secondo cui la generazione musicale guidata da modelli linguistico-audio non va concepita come traduzione di una descrizione testuale in suono, ma come tentativo di trasferimento di una struttura intenzionale a due livelli — la frequenza fisica del suono risultante (prima frequenza) e la frequenza cognitiva, ovvero la struttura di pensiero, gerarchia e intenzione che precede e organizza tale suono (seconda frequenza). Il compito del prompt engineering, in questo framework, non è massimizzare la precisione descrittiva dell’output atteso, ma massimizzare la fedeltà del trasferimento della seconda frequenza.

Origine del nome. La denominazione “Frequenze²” (Frequenze al quadrato) è scelta per indicare non una semplice somma di due frequenze, ma una relazione di dipendenza strutturale: la seconda frequenza (l’intenzione) non si aggiunge alla prima (il suono fisico), ma la genera, la precede logicamente e la organizza. L’elevamento al quadrato è qui una metafora formale, non un operatore matematico applicato a grandezze fisiche misurabili — va inteso come figura retorica che indica l’auto-riferimento del suono alla propria causa strutturale, non come formula acustica.

9.1 Le due frequenze

LivelloDenominazioneNaturaDominioPrima frequenzaFrequenza fisicaFenomeno acustico misurabile (Hz, inviluppo, spettro)Fisica del suonoSeconda frequenzaFrequenza intenzionaleStruttura cognitiva: gerarchia, funzione, logica formale, intenzione espressivaPensiero del compositore/prompt engineer

[DED] Se il prompt trasferisce solo la prima frequenza (descrizione dell’effetto sonoro atteso), il modello genera una superficie plausibile priva di logica strutturale vincolante, ed è quindi libero di sostituire tale logica con le proprie regolarità statistiche — da cui derivano i comportamenti descritti nella sezione 3. Se il prompt tenta di trasferire anche la seconda frequenza, il modello dispone di un vincolo strutturale più coerente lungo l’intera traiettoria generativa, riducendo (ma non eliminando) lo spazio in cui le regolarità statistiche possono prevalere.

10. Principi fondamentali

Il Progetto Frequenze² si articola in un insieme di principi, formulati come postulati metodologici piuttosto che come leggi empiriche dimostrate.

Principio 1 — Primato dell’intenzione. L’intenzione artistica appartiene esclusivamente all’agente umano. Il modello generativo non possiede intenzione propria; interpreta, secondo regolarità apprese, un input che tenta di rappresentare un’intenzione altrui.
Principio 2 — Non equivalenza tra descrizione e struttura. Descrivere un risultato atteso (linguaggio dichiarativo di superficie) non equivale a comunicare la struttura logico-formale che lo genera (linguaggio strutturale di profondità).
Principio 3 — Priorità del vincolo ex ante. A parità di contenuto informativo, vincoli dichiarati prima e come premessa strutturale del prompt tendono, secondo le osservazioni raccolte, a essere rispettati con maggiore frequenza rispetto a descrizioni poste come semplice qualificazione dell’output atteso.
Principio 4 — Interpretazione ineliminabile. Nessuna formulazione testuale, per quanto accurata, elimina completamente il margine di interpretazione creativa del modello. Il Progetto Frequenze² non promette controllo assoluto, ma mira a ridurre lo scarto tra intenzione trasferita e risultato ottenuto.
Principio 5 — Gerarchia esplicita come strumento primario. Nei limiti delle osservazioni raccolte, la dichiarazione esplicita di una gerarchia tra vincoli appare più efficace della loro semplice giustapposizione, positiva o negativa che sia.
Principio 6 — Il prompt come partitura incompleta, non come contratto. Il prompt va concepito non come un contratto vincolante (metafora giuridica) ma come una partitura incompleta che il modello “esegue” con margini interpretativi non eliminabili (metafora performativa), analoga per certi versi al rapporto tra una partitura musicale scritta e la sua esecuzione da parte di un interprete umano — con la differenza sostanziale che l’interprete umano condivide con il compositore un retroterra intenzionale culturale che il modello non possiede in senso proprio, ma solo per approssimazione statistica.

11. Analisi filosofica

[INT] La distinzione tra prima e seconda frequenza richiama, per analogia strutturale e non per derivazione diretta, alcune categorie ricorrenti nella filosofia dell’arte relative al rapporto tra intenzione dell’autore, opera e interpretazione. In particolare, la tradizione estetica ha a lungo discusso la tensione tra concezioni dell’opera d’arte come espressione di uno stato interiore dell’artista e concezioni che ne enfatizzano l’autonomia rispetto all’intenzione originaria, una volta che l’opera è resa pubblica. Il Progetto Frequenze² non prende posizione definitiva in questo dibattito più ampio, ma osserva che il caso della generazione algoritmica introduce una terza istanza — l’agente interprete non umano — assente nelle formulazioni classiche di tale dibattito, che presupponevano tipicamente un rapporto diretto o mediato da un solo interprete umano.

[INT] In questo senso specifico, la catena intenzione–prompt–output si può leggere come un caso particolare, e storicamente nuovo, del più generale problema ermeneutico del rapporto tra intenzione dell’autore e significato del testo, qui traslato dal dominio linguistico-letterario al dominio della generazione musicale automatica. Va precisato che questa lettura è un’estensione per analogia proposta dall’autore del presente documento, non un’applicazione diretta di una specifica scuola filosofica, e non intende attribuire a filosofi determinati posizioni relative all’intelligenza artificiale, tecnologia inesistente al momento in cui tali dibattiti filosofici si sono sviluppati.

[IP] Si può ipotizzare che il “grado di autonomia interpretativa” del modello generativo funzioni, sul piano fenomenologico dell’esperienza compositiva, in modo non dissimile dal margine interpretativo che un esecutore umano esercita rispetto a una partitura scritta — con la differenza qualitativa, già segnalata nella sezione 10, che l’esecutore umano opera all’interno di una tradizione condivisa di convenzioni intenzionalmente comprese, mentre il modello opera per approssimazione statistica di tali convenzioni, senza comprenderle nello stesso senso.

12. Analisi cognitiva

[INT] Dal punto di vista della psicologia della creatività, il processo compositivo umano viene spesso descritto, in letteratura, attraverso modelli a fasi che distinguono un momento di preparazione, uno di incubazione, uno di illuminazione e uno di verifica. Indipendentemente dal modello a fasi specifico adottato, un elemento ricorrente in questa letteratura è la distinzione tra il pensiero come processo interno, spesso non pienamente verbalizzato nemmeno dall’autore stesso, e la sua traduzione in un artefatto comunicabile (testo, partitura, prompt).

[DED] Applicando questa distinzione al caso in esame: l’autore che scrive un prompt sta compiendo un’operazione di traduzione da un pensiero musicale spesso non interamente verbalizzato (una sensazione di forma, di tensione, di quiete) a un artefatto linguistico necessariamente più povero e più esplicito del pensiero originario. Questa perdita di informazione nella traduzione da pensiero a linguaggio (indicata nella sezione 5.1 come “perdita di informazione 1”) non è un limite specifico del prompt engineering, ma un limite generale, ben noto in psicologia cognitiva, della verbalizzazione di contenuti mentali non primariamente linguistici — come appunto le rappresentazioni musicali.

[IP] Si ipotizza che il Progetto Frequenze², nel proporre di esplicitare la logica strutturale (la “seconda frequenza”) anziché il solo risultato atteso, agisca in parte come tecnica di esternalizzazione più fedele del pensiero compositivo — analoga, per struttura cognitiva, a tecniche di verbalizzazione strutturata usate in altri domini creativi (ad esempio la stesura di un trattamento narrativo prima della sceneggiatura, o di uno schema formale prima della composizione musicale tradizionale) — più che come tecnica di scrittura di prompt più efficaci in senso puramente linguistico.

13. Analisi artistica

[INT] Dal punto di vista della prassi compositiva, la vicenda qui documentata pone una domanda che eccede il caso specifico di Suno: che cosa significa “comporre” quando l’esecuzione materiale del suono è delegata a un sistema che interpreta piuttosto che eseguire letteralmente? Nella prassi musicale storica, questa domanda non è del tutto nuova: il rapporto tra compositore e interprete ha sempre incluso un margine di interpretazione, spesso deliberatamente lasciato aperto dal compositore stesso (si pensi, in generale, alle indicazioni agogiche e dinamiche non prescrittive in modo assoluto, tipiche della notazione musicale occidentale). Ciò che muta, nel caso della generazione algoritmica, è la natura dell’interprete: non un musicista che condivide con il compositore una formazione culturale e una comprensione intenzionale della tradizione, ma un sistema statistico che approssima tale comprensione a partire da regolarità osservate nei dati.

[INT] In questa cornice, l’autore del prompt assume un ruolo ibrido, non pienamente sovrapponibile né alla figura del compositore tradizionale né a quella del semplice “operatore” di uno strumento. Il Progetto Frequenze² propone di chiamare questo ruolo, in modo provvisorio e non ancora consolidato terminologicamente, “regista dell’intenzione”: una figura che non scrive ogni nota (come il compositore classico) né si limita a descrivere un effetto desiderato (come l’utente generico di un prompt), ma tenta di comunicare la logica formale entro cui l’interprete algoritmico è chiamato a muoversi.

14. Possibili implicazioni future

[IP] Se l’ipotesi centrale del progetto (maggiore fedeltà del trasferimento dell’intenzione strutturale rispetto alla sola descrizione dell’effetto) fosse confermata da verifiche sistematiche, se ne potrebbero trarre le seguenti implicazioni, qui presentate come ipotesi di lavoro per ricerche future e non come conclusioni acquisite:

Possibile sviluppo di framework di prompt engineering musicale strutturati non per campi descrittivi (genere, mood, strumentazione) ma per campi funzionali (funzione della sezione, gerarchia dei vincoli, logica di sviluppo).
Possibile utilità di rappresentazioni intermedie tra intenzione e prompt testuale — ad esempio schemi formali semi-simbolici (diagrammi di forma, gerarchie esplicite) da cui derivare il prompt testuale finale in modo più sistematico.
Possibile rilevanza del framework anche in altri domini della generazione condizionata da testo (immagini, video), dove analoghe tensioni tra descrizione dell’effetto e struttura intenzionale sono state informalmente segnalate da altri utilizzatori di sistemi generativi, sebbene ciò esuli dall’ambito sperimentale diretto di questo documento, incentrato sulla musica.
Possibile interesse, per l’interaction design di strumenti di prompting musicale, nel progettare interfacce che guidino esplicitamente l’utente a dichiarare gerarchie e funzioni strutturali, anziché semplici descrizioni testuali libere.

15. Limiti della teoria

È necessario esplicitare con chiarezza i limiti metodologici ed epistemologici del presente lavoro, poiché la sua natura sperimentale preliminare non consente di elevarlo, allo stato attuale, al rango di teoria empiricamente validata.

[OS] Limite 1 — Assenza di misurazione quantitativa sistematica. Le valutazioni di aderenza riportate nelle tabelle (sezioni 4 e 5) sono giudizi qualitativi dell’autore, basati sull’ascolto, non misurazioni ottenute con strumenti di analisi audio automatizzata (rilevamento di onset strumentali, analisi spettrale, misurazione del tempo battuta per battuta). Una validazione più rigorosa richiederebbe un protocollo di annotazione sistematico, idealmente con più ascoltatori indipendenti.
[OS] Limite 2 — Campione ridotto e non controllato. Gli esperimenti descritti non sono stati condotti secondo un disegno sperimentale controllato (ad esempio con randomizzazione dell’ordine delle condizioni, blind evaluation, numero fisso e ripetuto di generazioni per condizione). Il numero di generazioni per ciascuna configurazione non è stato standardizzato.
[OS] Limite 3 — Natura black-box del sistema. Non essendo disponibile l’architettura interna di Suno né i dati di addestramento, tutte le spiegazioni causali proposte (perché il modello aggiunge archi, perché il campo Style pesa di più) restano ipotesi esplicative plausibili, non fatti verificati sul funzionamento interno del sistema.
[OS] Limite 4 — Instabilità temporale del sistema osservato. I modelli generativi commerciali sono soggetti ad aggiornamenti non necessariamente documentati pubblicamente in dettaglio. Comportamenti osservati in un dato periodo potrebbero non essere riproducibili in versioni successive del sistema, il che limita la stabilità nel tempo delle conclusioni qui riportate.
[OS] Limite 5 — Soggettività della nozione di “fedeltà”. Il concetto stesso di aderenza all’intenzione presuppone che l’autore sia in grado di riconoscere con chiarezza la propria intenzione originaria — assunzione non banale, discussa criticamente nella sezione 12, dato che parte del pensiero compositivo è per sua natura non interamente verbalizzato nemmeno dall’autore.

15.1 Antitesi

Per rigore metodologico si presenta qui una posizione antitetica esplicita rispetto alla tesi centrale del progetto.

Antitesi: è possibile sostenere che la distinzione tra “descrizione dell’effetto” e “trasferimento dell’intenzione strutturale” sia essa stessa una distinzione di grado e non di natura — ovvero che un prompt strutturale sufficientemente dettagliato non sia altro che una descrizione dell’effetto più fine e più completa, e che i miglioramenti di aderenza osservati nello Stadio III (sezione 7) siano semplicemente il risultato di una maggiore quantità di informazione vincolante fornita al modello, indipendentemente dal fatto che tale informazione sia formulata come “intenzione” o come “descrizione”. In questa lettura alternativa, il concetto di “seconda frequenza” non introdurrebbe una categoria ontologicamente nuova, ma sarebbe una riformulazione retorica di un fenomeno più semplice: maggiore specificità informativa produce maggiore aderenza.

[DED] Questa antitesi non è confutata in modo conclusivo dagli esperimenti qui documentati, poiché non è stato condotto un confronto controllato tra prompt di pari lunghezza e densità informativa, uno formulato come descrizione dell’effetto e uno come struttura intenzionale. Tale confronto costituisce una delle direzioni prioritarie per la ricerca futura (sezione 16).

15.2 Possibili falsificazioni

Coerentemente con un criterio di demarcazione di tipo popperiano (qui richiamato come criterio metodologico generale, ampiamente adottato nella filosofia della scienza, e non come citazione testuale di un’opera specifica), si elencano condizioni empiriche che, se verificate, indebolirebbero o falsificherebbero l’ipotesi centrale del progetto:

Se prompt di pari lunghezza e densità informativa, uno strutturato secondo la logica “descrizione dell’effetto” e uno secondo la logica “trasferimento dell’intenzione”, producessero tassi di aderenza statisticamente indistinguibili in un confronto controllato e in cieco, l’ipotesi centrale risulterebbe indebolita in favore dell’antitesi di cui sopra.
Se l’aumento di aderenza osservato nello Stadio III fosse interamente spiegabile dall’aumento della gerarchizzazione esplicita dei vincoli (Principio 5) indipendentemente da qualunque riferimento a “intenzione” o “struttura”, il concetto di “seconda frequenza” risulterebbe ridondante rispetto al più parsimonioso Principio 5 da solo.
Se aggiornamenti futuri del sistema Suno (o di sistemi analoghi) eliminassero sostanzialmente i comportamenti descritti nella sezione 3 indipendentemente dalla struttura del prompt (ad esempio grazie a un migliore controllo strumentale nativo), l’intero impianto problematico da cui nasce il progetto perderebbe rilevanza pratica, pur potendo mantenere un interesse teorico residuo.

16. Esperimenti futuri

Sulla base dei limiti indicati nella sezione 15, si propone la seguente agenda di ricerca, formulata come protocollo di massima piuttosto che come progetto sperimentale già operativo.

[Metodologia sperimentale proposta]

Confronto controllato tra Stadio I e Stadio III a parità di lunghezza del prompt. Costruire coppie di prompt di lunghezza e densità lessicale comparabili, uno nella forma “descrizione dell’effetto”, uno nella forma “struttura intenzionale”, mantenendo costante il numero di vincoli espliciti. Generare un numero fisso e predeterminato di brani per ciascuna condizione.
Valutazione in cieco con più ascoltatori indipendenti. Sottoporre gli output, privati di ogni indicazione sulla condizione sperimentale di provenienza, a valutatori indipendenti che ne giudichino l’aderenza a una descrizione target condivisa, secondo una scala predefinita.
Analisi audio quantitativa. Affiancare alla valutazione soggettiva un’analisi automatica (rilevamento di eventi strumentali, analisi spettrale, misurazione della variazione di tempo) per ridurre la dipendenza dal solo giudizio uditivo.
Studio di replicabilità nel tempo. Ripetere il medesimo protocollo a distanza di mesi, per verificare la stabilità delle osservazioni rispetto ad aggiornamenti non documentati del sistema.
Estensione ad altre formazioni monotimbriche. Verificare se i comportamenti osservati per il pianoforte solo si riproducano, con intensità comparabile, per altre formazioni monotimbriche (violino solo, chitarra sola, voce sola), al fine di isolare fattori specifici del pianoforte da fattori generali del vincolo di monotimbricità.
Verifica dell’antitesi (sezione 15.1). Disegnare specificamente un esperimento volto a discriminare tra l’ipotesi “trasferimento dell’intenzione” e l’ipotesi alternativa, più parsimoniosa, “maggiore densità vincolante”, isolando le due variabili per quanto possibile.

17. Conclusioni

Il percorso sperimentale qui ricostruito nasce da un obiettivo tecnico circoscritto — ottenere da Suno una composizione stabile per solo pianoforte classico — e approda a una domanda più generale sul rapporto tra linguaggio, intenzione e interpretazione algoritmica nella musica generativa. Nessuna delle strategie di prompting sperimentate (positive, negative, miste, gerarchiche, basate su seme armonico o melodico, artistiche, tecniche, emozionali) ha garantito il controllo pieno del risultato. Questa assenza di garanzia, osservata attraverso approcci metodologicamente eterogenei, ha condotto alla formulazione della tesi centrale del Progetto Frequenze²: l’arte non nasce dal prompt, il prompt non crea, l’intenzione appartiene all’essere umano e l’intelligenza artificiale interpreta; il compito, di conseguenza, non è descrivere con maggiore precisione il risultato atteso, ma trasferire, con i limiti ineliminabili del linguaggio naturale, la struttura intenzionale — la “seconda frequenza” — che precede e organizza il suono.

Questa tesi è qui presentata nella sua prima formalizzazione teorica, corredata di ipotesi esplicite, di un’antitesi dichiarata e di condizioni di falsificazione, nella consapevolezza che il suo status resta, allo stato attuale della ricerca, quello di un framework interpretativo plausibile e internamente coerente con le osservazioni raccolte, non quello di una teoria empiricamente validata secondo un disegno sperimentale controllato. La sezione 16 indica la via per un lavoro successivo che possa sottoporre tale framework a verifica più rigorosa.

Documento redatto da Salvatore Martino nell’ambito del Progetto Frequenze² per Suno. Prima formalizzazione teorica.