Che cos'è un fattore di inflazione di varianza?
Inflazione della varianza f Il fattore di inflazione della varianza (VIF) è una misura della quantità di multicollinearità in un insieme di variabili di regressione multipla. Matematicamente, il VIF per una variabile del modello di regressione è uguale al rapporto tra la varianza complessiva del modello e la varianza di un modello che include solo quella singola variabile indipendente. Questo rapporto viene calcolato per ogni variabile indipendente. Un VIF alto indica che la variabile indipendente associata è altamente collineare con le altre variabili nel modello.
Key Takeaways
- Un fattore di inflazione di varianza (VIF) fornisce una misura della multicollinearità tra le variabili indipendenti in un modello di regressione multipla. Rilevare la multicollinearità è importante perché, sebbene non riduca il potere esplicativo del modello, riduce la significatività statistica delle variabili indipendenti. Un VIF di grandi dimensioni su una variabile indipendente indica una relazione altamente collineare con le altre variabili che dovrebbe essere considerata o adattata nella struttura del modello e nella selezione di variabili indipendenti.
Comprensione di un fattore di inflazione di varianza
Una regressione multipla viene utilizzata quando una persona desidera testare l'effetto di più variabili su un determinato risultato. La variabile dipendente è il risultato che viene influenzato dalle variabili indipendenti, che sono gli input nel modello. La multicollinearità esiste quando esiste una relazione lineare, o correlazione, tra una o più variabili o input indipendenti. La multicollinearità crea un problema nella regressione multipla perché poiché gli input si influenzano a vicenda, in realtà non sono indipendenti ed è difficile verificare quanto la combinazione delle variabili indipendenti influisca sulla variabile dipendente o sul risultato nel modello di regressione. In termini statistici, un modello di regressione multipla in cui è presente un'elevata multicollinearità renderà più difficile stimare la relazione tra ciascuna delle variabili indipendenti e la variabile dipendente. Piccole variazioni nei dati utilizzati o nella struttura dell'equazione del modello possono produrre variazioni grandi e irregolari nei coefficienti stimati sulle variabili indipendenti.
Per garantire che il modello sia correttamente specificato e funzioni correttamente, esistono test che possono essere eseguiti per la multicollinearità. Il fattore di inflazione della varianza è uno di questi strumenti di misurazione. L'uso dei fattori di inflazione della varianza aiuta a identificare la gravità di eventuali problemi di multicollinearità in modo da poter adattare il modello. Il fattore di inflazione della varianza misura quanto il comportamento (varianza) di una variabile indipendente è influenzato o gonfiato dalla sua interazione / correlazione con le altre variabili indipendenti. I fattori di inflazione della varianza consentono di misurare rapidamente la quantità di una variabile che contribuisce all'errore standard nella regressione. Quando sussistono importanti problemi di multicollinearità, il fattore di inflazione della varianza sarà molto ampio per le variabili coinvolte. Dopo aver identificato queste variabili, è possibile utilizzare diversi approcci per eliminare o combinare variabili collineari, risolvendo il problema della multicollinearità.
Mentre la multicollinearità non riduce il potere predittivo complessivo di un modello, può produrre stime dei coefficienti di regressione che non sono statisticamente significative. In un certo senso, può essere considerato come una sorta di doppio conteggio nel modello. Quando due o più variabili indipendenti sono strettamente correlate o misurano quasi la stessa cosa, l'effetto sottostante che misurano viene contabilizzato due volte (o più) tra le variabili e diventa difficile o impossibile dire quale variabile sta realmente influenzando il variabile indipendente. Questo è un problema perché l'obiettivo di molti modelli econometrici è testare esattamente questo tipo di relazione statistica tra le variabili indipendenti e la variabile dipendente.
Ad esempio, se un economista vuole verificare se esiste una relazione statisticamente significativa tra il tasso di disoccupazione (come variabile indipendente) e il tasso di inflazione (come variabile dipendente). Includere ulteriori variabili indipendenti correlate al tasso di disoccupazione, una tale nuova domanda iniziale di disoccupazione, introdurrebbe probabilmente la multicollinearità nel modello. Il modello complessivo potrebbe mostrare un potere esplicativo forte, statisticamente sufficiente, ma non essere in grado di identificare se l'effetto è principalmente dovuto al tasso di disoccupazione o alle nuove richieste iniziali di disoccupazione. Questo è ciò che il VIF rileverebbe e suggerirebbe eventualmente di eliminare una delle variabili dal modello o di trovare un modo per consolidarle per catturare il loro effetto congiunto, a seconda dell'ipotesi specifica che il ricercatore è interessato a testare.
