Ganho de Informação is a key conceito fundamental na teoria da informação and aprendizado de máquina that quantifies the effectiveness of an attribute in classifying data. Specifically, it measures the reduction in entropy, or uncertainty, associated with a random variable when additional information is introduced.
Entropy, represented as H(X), is a measure of the unpredictability or disorder of a system. When we have a dataset with a target variable (e.g., whether an email is spam or not), the initial entropy reflects our uncertainty about the classification of that variable. By introducing a feature or attribute (such as the presence of certain words in the email), we can partition the dataset into subsets that provide more information about the target variable.
A fórmula para Ganho de Informação (GI) é dada por:
IG(X, Y) = H(X) – H(X|Y)
Onde:
- H(X) é a entropia do conjunto de dados original.
- H(X|Y) é a entropia condicional do conjunto de dados dado o atributo Y.
Em termos mais simples, Ganho de Informação nos diz o quanto saber o valor do atributo Y reduz a incerteza de prever X. Um alto Ganho de Informação indica que o atributo é eficaz em dividir os dados em grupos mais homogêneos em relação à variável alvo.
Esse conceito é amplamente utilizado em algoritmos de árvores de decisão, such as ID3 (Iterative Dichotomiser 3), where nodes are chosen based on the attribute that provides the highest Information Gain, thus leading to better predictive performance.
Em resumo, Ganho de Informação é uma medida fundamental em ciência de dados that helps us identify which features or attributes are most informative for predicting outcomes.