O Índice de Jaccard, also known as the Similaridade de Jaccard coefficient, is a statistical measure used to quantify the similarity between two sets. It is defined as the size of the intersection divided by the size of the union of the two sets. This index is particularly useful in various fields such as mineração de dados, ecology, and aprendizado de máquina.
Matematicamente, o Índice de Jaccard (J) é expresso como:
J(A, B) = |A ∩ B| / |A ∪ B|
Onde:
- |A ∩ B| é o número de elementos comuns a ambos os conjuntos A e B (a interseção).
- |A ∪ B| é o número total de elementos únicos em ambos os conjuntos A e B (a união).
O valor do Índice de Jaccard varia de 0 a 1. Um Índice de Jaccard de 0 indica que os dois conjuntos são completamente disjuntos (sem elementos em comum), enquanto um valor de 1 indica que os dois conjuntos são idênticos. Valores entre 0 e 1 refletem graus variados de similaridade.
Por exemplo, se o Conjunto A contém os elementos {1, 2, 3} e o Conjunto B contém {2, 3, 4}, o Índice de Jaccard seria:
J(A, B) = |{2, 3}| / |{1, 2, 3, 4}| = 2 / 4 = 0,5
O Índice de Jaccard é amplamente utilizado em algoritmos de agrupamento, sistemas de recomendação, and analyzing the diversity of species in ecological studies. Its simplicity and effectiveness make it a popular choice for assessing similarity, especially in binary data.