Glossário de IA: Termos e Definições de Big Data

Anonimização

A anonimização é o processo de remover identificadores pessoais dos dados para proteger a privacidade individual.

Apache Arrow

Apache Arrow é uma estrutura de código aberto para processamento de dados de alto desempenho e análise.

Apache Kafka

Apache Kafka é uma plataforma de streaming de eventos distribuída usada para construir pipelines de dados em tempo real e aplicações.

Dados Escuros

Dados escuros referem-se a informações que as organizações coletam, mas não usam para análise ou tomada de decisão.

integração de dados

DI

Integração de Dados é o processo de combinar dados de diferentes fontes em uma visão unificada.

Lago de Dados

DL

Um data lake é um repositório centralizado que armazena grandes quantidades de dados brutos em seu formato nativo.

Lago de Dados e Armazém de Dados

DLH

Um Lago de Dados e Armazém de Dados combina as melhores características de lagos de dados e armazéns de dados para gerenciamento e análise eficientes.

Pipeline de Dados

Um pipeline de dados é uma série de processos que movem e transformam dados de um sistema para outro.

Segmentação de Dados

A segmentação de dados é o processo de extrair subconjuntos específicos de dados de um conjunto de dados maior para análise.

Fluxo de Dados

Um fluxo de dados é um fluxo contínuo de dados gerados em tempo real, frequentemente usado para análise e processamento.

Velocidade dos Dados

Velocidade de Dados refere-se à rapidez com que os dados são gerados, processados e analisados, sendo crucial para decisões em tempo real.

Databricks ML

DB ML

O Databricks ML é uma plataforma de aprendizado de máquina integrada ao Apache Spark para ciência de dados colaborativa e implantação de modelos.

Delta Lake

DL

Delta Lake é uma camada de armazenamento de código aberto que traz confiabilidade e desempenho aos lagos de dados.

Computação Distribuída

Computação Distribuída envolve múltiplos computadores interconectados trabalhando juntos para resolver tarefas complexas de forma eficiente.

Framework Hadoop

Hadoop é uma estrutura de código aberto para armazenamento distribuído e processamento de big data usando um cluster de computadores.

Dados em Grande Escala

Dados em Grande Escala referem-se a conjuntos de dados vastos que requerem técnicas avançadas de processamento e armazenamento devido ao seu tamanho e complexidade.

Dados Online

Dados online referem-se a informações acessíveis via internet, incluindo conteúdo gerado por usuários e fluxos de dados em tempo real.

Algoritmo Fora de Núcleo

Um algoritmo out-of-core processa dados que excedem a capacidade de memória usando armazenamento externo.

Processamento Fora de Memória

Out-of-core processing is a technique for handling data that doesn't fit into a computer's memory by utilizing disk storage.

SingleStore

SingleStore é um banco de dados SQL distribuído projetado para análises em tempo real e cargas de trabalho transacionais.