O HITS (Hyperlink-Induced Topic Search) Algoritmo is a análise de links algorithm used to rank web pages based on their importance in the context of a specific topic. Developed by Jon Kleinberg in 1998, the HITS algorithm distinguishes between two types of web pages: hubs and authorities.
Centros are pages that link to many other pages, while authorities are pages that are linked to by many hubs. The HITS algorithm operates on the principle that a good hub should point to many high-quality authority pages, and a good authority should be pointed to by many high-quality hubs.
O algoritmo funciona primeiro identificando um conjunto de páginas relevantes relacionadas a uma consulta. Em seguida, atribui dois scores a cada página: um score de hub e um de autoridade. Esses scores são atualizados de forma iterativa com base na estrutura de links da web. O processo continua até que os scores converjam, ou seja, se estabilizem e não mudem significativamente com novas iterações.
Para calcular os scores, o algoritmo usa os seguintes passos:
- Inicialize todos os scores de hub e autoridade com 1.
- Para cada página, atualize its o score de autoridade somando os scores de hub de todas as páginas que a linkam.
- Para cada página, atualize seu score de hub somando os scores de autoridade de todas as páginas às quais ela se conecta.
- Normalize os scores para garantir que permaneçam dentro de um determinado intervalo.
The HITS algorithm is particularly useful for finding expert content within a specific topic, making it valuable for motores de busca and recuperação de informações systems. However, it can be sensitive to noise and spam links, which may distort the true importance of pages. Despite its limitations, the HITS algorithm laid the groundwork for many modern link analysis and ranking techniques.