G

Impureza de Gini

A Impureza de Gini mede a impureza de um conjunto de dados, sendo usada principalmente em algoritmos de árvores de decisão para avaliar divisões.

Gini Impurity is a statistical measure that quantifies the impurity or disorder in a dataset. It is commonly usada em aprendizado de máquina, particularly in the construction of decision trees, to determine how well a split separates classes in classification tarefas. A Impureza de Gini é calculada usando a fórmula:

Gini = 1 – ∑(pi

where pi represents the proportion of instances belonging to class i. The value of Gini Impurity ranges from 0 to 1, where:

  • 0 indica um conjunto de dados perfeitamente puro (todas as instâncias pertencem a uma única classe), e
  • 1 indica impureza máxima (as instâncias estão distribuídas uniformemente entre as classes).

In practice, Gini Impurity is calculated for each possible split in the dataset. The split that results in the lowest Gini Impurity is chosen, as it implies that the resulting child nodes are more homogeneous compared to the nó pai. This measure is favored for its eficiência computacional and its ability to encourage diversity among the classes in the resulting splits.

No geral, a Impureza de Gini é um conceito essencial em algoritmos de árvores de decisão, contributing to the model’s ability to classify data effectively and accurately.

SEOFAI » Feed + /