Risposta Rapida
Mixare le voci richiede six stadi in sequenza: gain staging per collocare il segnale a -18 a -12 dBFS; EQ high-pass a 80–100 Hz e tagli di risonanza; compressione a 3:1–4:1 con 4–6 dB di gain reduction; de-essing per attenuare le sibilanti a 5–9 kHz; riverbero e delay per il posizionamento nello spazio; e automazione di volume per la coerenza finale.
Gain Staging: Preparare la Traccia Vocale
Il gain staging corretto posiziona il segnale vocale al livello ottimale prima di qualsiasi elaborazione. Punta a un livello medio di -18 a -12 dBFS con i picchi che raggiungono al massimo -6 dBFS.
- Impostare il gain in ingresso: regola il gain del clip (non il fader) in modo che il livello vocale medio legga circa -18 dBFS RMS. I picchi possono raggiungere -10 dBFS — quella headroom è intenzionale.
- Filtro high-pass: applica un HPF a 24 dB/oct a 80 Hz. La voce non contiene energia utile al di sotto di questo punto; tagliarlo impedisce alle basse frequenze di mascherare il kick e il basso.
- Rimuovere i respiri manualmente: usa le maniglie del gain del clip della tua DAW o un gate per abbassare i transienti dei respiri di 10–15 dB piuttosto che tagliarli del tutto — la rimozione totale suona innaturale.
- Modificare click e plosive: ingrandisci le forme d'onda all'inizio delle parole. Un picco transiente con angolo acuto è un click o una plosiva. Applica un fade ai primi 5–10 ms del clip per rimuoverlo.
- Accordare la voce (opzionale): applica la correzione dell'intonazione — Melodyne per risultati naturali, Auto-Tune per l'effetto. Accorda prima di qualsiasi elaborazione basata sul tempo.
EQ per le Voci: Cosa Tagliare, Cosa Boostare
L'EQ vocale riguarda prima la sottrazione. Elimina le frequenze che danneggiano il mix prima di considerare qualsiasi boost.
| Frequenza | Movimento | Quantità | Scopo |
|---|---|---|---|
| 80–100 Hz | Taglio HPF | Taglio completo (filtro) | Rimuove rimbombo, vibrazioni del microfono, rumore HVAC |
| 200–400 Hz | Taglio stretto | -2 a -4 dB | Riduce il fango e l'accumulo 'boxy' — la maggior parte delle voci ne ha bisogno |
| 800 Hz–1 kHz | Notch stretto | -1 a -3 dB | Corregge il tono nasale o 'honky' se presente; salta se la voce è pulita |
| 2–5 kHz | Boost ampio | +1 a +3 dB | Aggiunge presenza e intelligibilità — fa emergere la voce nel mix |
| 8–12 kHz | Boost shelf alto | +1 a +2 dB | Aria e brillantezza; usa un shelf, non un picco, per un suono naturale |
Regola: applica prima l'EQ sottrattivo (tagli) e poi il compressore per rimuovere chirurgicamente le frequenze problematiche; usa l'EQ additivo (aumenti) dopo il compressore per modellare il tono finale. Non applicare contemporaneamente tagli e aumenti sulla stessa banda di frequenza nello stesso EQ.
Impostazioni di compressione per le voci
La compressione controlla la dinamica tra le sillabe più forti e quelle più deboli. Opzioni gratuite: Analog Obsession LALA (ottico, morbido per voci principali), DC1A di Klanghelm (semplice, eccellente per voci di sottofondo), TDR Kotelnikov (trasparente per un leggero incollaggio). Questi sono i parametri target per ogni ruolo vocale.
| Parametro | Voce principale | Voce di sottofondo | Voce rap |
|---|---|---|---|
| Soglia | Imposta in modo che il misuratore GR legga da -4 a -6 dB sui picchi | Da -2 a -4 dB GR sui picchi | Da -6 a -8 dB GR — le dinamiche del rap sono più ampie |
| Rapporto | 3:1 | 2:1 | da 4:1 a 6:1 |
| Attacco | 10–15 ms (lascia passare il transiente) | 15–25 ms | 5–10 ms (più stretto e incisivo) |
| Rilascio | 60–80 ms (automatico o dipendente dal programma) | 80–120 ms | 40–60 ms |
| Guadagno di compensazione | +2 a +4 dB per compensare la riduzione di guadagno | +1 a +3 dB | +3 a +5 dB |
| Obiettivo di riduzione di guadagno | 3–6 dB sulle frasi più forti | 1–3 dB | 5–8 dB |
Un secondo compressore in serie (compressione seriale) è comune per le voci principali: il primo compressore cattura i picchi più alti (soglia più alta, rapporto più alto), il secondo aggiunge densità costante (soglia più bassa, rapporto più basso, 2:1). Ognuno lavora meno — il risultato suona più trasparente di un singolo compressore che fa tutto il lavoro pesante.
Riverbero e Delay: Posizionare la Voce nello Spazio
Instrada il riverbero e il delay su canali ausiliari — non inserirli mai direttamente sulla traccia vocale. Questo ti permette di controllare in modo indipendente il livello wet e applicare EQ o compressione al ritorno, pratica professionale standard.
- Riverbero a piastra (voce principale) — Decay 1.2–1.8 s. Pre-delay 20–35 ms per preservare la chiarezza dell'attacco. Livello wet sul ritorno dell'invio: -12 a -18 dBFS. Plugin gratuito: TAL-Reverb-4 (modalità plate) o Valhalla Supermassive (algoritmo Gemini o Hydra). Applica un filtro passa-alto a 200 Hz e un taglio shelf alto sopra gli 8 kHz al ritorno del riverbero per mantenerlo dietro al segnale dry.
- Riverbero ambientale (voci di fondo) — Decay 0.4–0.8 s. Pre-delay breve 10–15 ms. Più corto, più scuro e più silenzioso del riverbero principale. Mantiene le voci di sottofondo unite senza competere per lo spazio.
- Delay a 1/4 della nota (voce principale) — Sincronizza il tempo di delay a 1/4 della nota al BPM del tuo progetto. Feedback 1–2 ripetizioni. Livello wet da -18 a -24 dBFS. Filtro passa-alto a 400 Hz in modo che gli echi rafforzino solo il midrange. Plugin gratuito: Valhalla Supermassive (modalità delay) o qualsiasi delay gratuito con sincronizzazione al tempo. Filtro passa-basso a 6 kHz sul ritorno del delay.
- Delay slap a ottavo (rap/pop) — Delay a 1/8 della nota, una singola ripetizione, livello wet molto basso (-24 dBFS). Aggiunge ampiezza e profondità senza echi udibili. Filtra strettamente: HPF a 600 Hz, LPF a 4 kHz.
De-Essing: Rimozione delle Sibilanti
La sibilanza — suoni duri come S, SH e T — si concentra nella gamma 4–8 kHz nella maggior parte dei microfoni per voce. Un de-esser è un compressore selettivo in frequenza che riduce il guadagno solo quando l'energia in quella banda supera una soglia.
- Frequenza target — Sposta una banda in solitaria tra 4–8 kHz mentre pronunci una parola ricca di S. La frequenza in cui la durezza raggiunge il picco è il punto centrale del tuo de-esser. Le voci femminili tipicamente raggiungono il picco a 6–8 kHz; quelle maschili a 4–6 kHz.
- Soglia di regolazione — Imposta la soglia in modo che il misuratore di riduzione di guadagno sul de-esser si muova solo sui suoni S e SH — non su ogni consonante. Inizia con -3 dB di riduzione di guadagno sulle sillabe più dure.
- Lisp di Sleepy-Time DSP (gratis) — Un de-esser a singolo controllo con frequenza di rilevamento fissa. Estremamente semplice da usare — ideale per i principianti. Efficace sulle voci pop femminili.
- Techivation T-De-Esser Free — De-esser dinamico con frequenza, soglia e intensità regolabili. Più preciso di Lisp. Funziona sia con voci maschili che femminili.
- TDR Nova (modalità EQ dinamico, gratuito) — Posiziona una banda dinamica a 5–7 kHz con un limite massimo di -3 a -5 dB e una soglia conservativa. Funziona come un de-esser trasparente con controllo parametrico completo sull'intervallo di rilevamento.
La catena completa di processing vocale
L'ordine della catena del segnale determina come ogni processore interagisce con l'audio. Questo è l'ordine standard del settore per il missaggio delle voci in un DAW. Ogni passaggio si basa su un input più pulito rispetto al precedente.
- 1. Livellamento del guadagno — Regolazione del guadagno del clip a -18 dBFS RMS prima che vengano caricati plugin.
- 2. Noise gate (opzionale) — Solo quando il rumore ambientale è udibile tra una frase e l'altra. Attacco 1 ms, rilascio 200 ms, soglia appena sotto la frase vocale più debole.
- 3. EQ sottrattivo — Filtro passa-alto a 80–100 Hz, taglio a 200–400 Hz per eliminare il fango, notch a 800 Hz se necessario per la gamma nasale. TDR Nova o ReaEQ.
- 4. Compressione (primaria) — Rapporto 3:1 per la voce principale, attacco 10–15 ms, rilascio 60–80 ms, GR di 3–6 dB. Analog Obsession LALA o DC1A.
- 5. De-esser — Target a 4–8 kHz, GR di -3 dB solo sui transienti sibilanti. Techivation T-De-Esser Free o banda dinamica TDR Nova.
- 6. EQ additivo — Boost di presenza +1 a +3 dB a 2–5 kHz, shelf d'aria +1 a +2 dB a 10 kHz. Stesso plugin (TDR Nova) o un'istanza separata.
- 7. Compressione (seconda passata opzionale) — Rapporto più basso 2:1, soglia più bassa, 1–2 dB di riduzione del guadagno — aggiunge densità senza comprimere i transienti.
- 8. Saturazione (opzionale) — Eccitazione armonica sottile prima degli invii. Plugin gratuito: IVGI di Klanghelm (saturazione stile nastro). Drive al 10–20%.
- 9. Invio riverbero — Ritorno ausiliario con riverbero a piastra, decadimento 1,2–1,8 s, pre-delay 20–35 ms. Applica un filtro passa-alto al ritorno a 200 Hz.
- 10. Invio delay — Ritorno ausiliario con delay da 1/4 di nota, 1–2 ripetizioni. Applica un filtro passa-alto al ritorno a 400 Hz e un passa-basso a 6 kHz.
Plugin gratuiti per il missaggio vocale (2026)
Tutti i plugin elencati sono veramente gratuiti — senza limiti di tempo, funzionalità disabilitate o filigrana.
- TDR Nova (TDR) — <em>EQ</em> parametrico e dinamico. Il livello gratuito include quattro bande ed è sufficiente per un <em>EQ</em> vocale completo, incluso il de-essing. Funziona su Windows e macOS.
- Analog Obsession LALA — Emulazione di un compressore ottico basato sul circuito LA-2A. Riduzione del guadagno fluida con controlli minimi di attacco e rilascio — ideale per voci principali. Gratuito su tutte le piattaforme.
- DC1A di Klanghelm — Compressore stile <em>FET</em> a due manopole. L'interruttore di carattere passa da pulito a colorato. Ideale per voci di sottofondo e compressione parallela su bus.
- Valhalla Supermassive — Plugin di riverbero e delay di <strong>Valhalla DSP</strong> — di livello professionale, permanentemente gratuito. Usa l'algoritmo <em>Gemini</em> per il riverbero a piastra, <em>Hydra</em> per sale lunghe. Copre anche le funzioni di invio del delay.
- TAL-Reverb-4 (TAL Software) — Emulazione di riverbero a piastra. Interfaccia semplice, densa e morbida. Pre-delay fino a 250 ms. Eccellente per un classico suono a piastra sulle voci principali.
- Techivation T-De-Esser Free — Frequenza, soglia e intensità regolabili. Il miglior de-esser gratuito disponibile. Windows e macOS, VST3 e AU.
- IVGI di Klanghelm — Plugin di saturazione a nastro con controlli di drive e mix. Aggiunge densità armonica a registrazioni vocali sottili o troppo pulite digitalmente. Gratuito per tutte le piattaforme.
- ReaPlugs (Cockos) — La versione standalone della suite di plugin di REAPER. ReaEQ, ReaComp, ReaDelay, ReaGate — tutti gratuiti, affidabili e leggeri. Disponibili anche al di fuori di REAPER.
Learning path
Related answer hubs
Sfoglia plugin gratuiti per il mixing vocale, de-esser, riverbero e delay — tutti verificati e consegnati istantaneamente via Telegram.
Sfoglia i download gratuitiDomande Frequenti
- Quanto devono essere alte le voci in un mix?
- Le voci principali dovrebbero posizionarsi intorno ai -10/-8 dBFS di picco in un mix completo, con il livello del fader vocale regolato in modo che la voce risulti in primo piano senza mascherare gli altri elementi. Un punto di partenza comune: alza il fader vocale finché non senti chiaramente la voce sopra il beat completo, poi abbassalo di 1–2 dB. Il compressore vocale deve gestire la coerenza, quindi il fader non necessita di automazioni costanti. Le voci di sfondo tipicamente si posizionano 6–8 dB sotto la voce principale.
- Dovrei fare l'<strong>EQ</strong> prima o dopo la compressione sulle voci?
- Utilizza l'<strong>EQ</strong> sia prima che dopo la compressione, con intenti diversi. Prima della compressione: applica solo <strong>EQ</strong> sottrattivo — il filtro passa-alto a 80–100 Hz e tagli di frequenze problematiche. Questo garantisce che il compressore reagisca a un segnale più pulito senza essere attivato da rumori o fango. Dopo la compressione: applica <strong>EQ</strong> additivo — boost di presenza a 2–5 kHz e shelf alto di aria a 10 kHz. Un boost prima del compressore farebbe reagire il compressore in modo più aggressivo sulle frequenze appena enfatizzate.
- Che rapporto del compressore dovrei usare per le voci?
- 3:1 è il rapporto standard di partenza per le voci principali. Fornisce un controllo dinamico notevole senza un effetto di 'pompaggio' evidente. Le voci rap con una gamma dinamica più ampia spesso utilizzano rapporti tra 4:1 e 6:1. Le voci di sfondo necessitano meno compressione — 2:1 con una soglia più bassa. Un rapporto superiore a 8:1 rientra nel territorio del <em>limiter</em> e renderà le voci innaturali a meno che non sia un effetto intenzionale.
- Come elimino i suoni S aspri nelle voci?
- La sibilanza a 4–8 kHz viene rimossa con un <em>de-esser</em>. Imposta la frequenza di rilevamento isolando una banda stretta e spostala nell'intervallo 4–8 kHz mentre riproduci una sezione con molte S aspre. Quando trovi la frequenza di picco, posiziona il <em>de-esser</em> lì e imposta la soglia in modo che il misuratore di GR si muova solo sui suoni S e SH — di solito sono sufficienti 2–4 dB di riduzione. Evita di over-de-essare: rimuovere troppa energia sopra i 5 kHz fa scomparire le consonanti.
- Dovrei usare la riverberazione su ogni voce?
- No. Le voci <em>dry</em> di trap e hip-hop spesso utilizzano quasi nessuna riverberazione — una stanza molto corta (decay 0,2–0,4 s) o addirittura nessuna. Le voci principali di pop e R&B tipicamente usano una <em>plate</em> con decay 1,2–1,8 s. La regola è che la riverberazione deve rafforzare la voce nel contesto del mix, non farla sembrare processata. Invia sempre la riverberazione a un <em>send</em>, applica un filtro passa-alto a 200 Hz sul <em>return</em> e mantieni il livello del <em>return</em> più basso di quanto pensi serva.
- Qual è la differenza tra un de-esser e un EQ dinamico?
- Entrambi riducono solo frequenze specifiche quando viene superata una soglia — funzionalmente sono lo stesso strumento. Un de-esser dedicato come <strong>Techivation T-De-Esser Free</strong> o <strong>Lisp</strong> ha un'interfaccia più semplice ottimizzata per la sibilanza. Un <em>EQ dinamico</em> come <strong>TDR Nova</strong> offre un controllo maggiore sulla gamma di rilevamento e sulla forma della riduzione. Per la maggior parte dei compiti di de-essing vocale, un de-esser dedicato è più veloce; per un controllo dinamico multibanda su tutto lo spettro, un <em>EQ dinamico</em> è più flessibile.