Hadoop
Hadoop é um
conjunto de programas e procedimentos que pode ser utilizado gratuitamente por
qualquer um que sevem como estrutura para operações de dados. A flexibilidade
do Hadoop permite com que as empresas possam adicionar e até mudar o sistema de
dados para que se adequem à sua própria necessidade.
Hoje em dia
o Haddop é utilizado para fornecer armazenamento e processamento de dados em hardwares
mais baratos, em vez de sistemas caros que são trabalhados em mão. Quase todas
as grandes empresas o utilizam e como qualquer um é livre para altera-lo,
engenheiros como os da Google fazem mudanças que acabam melhorando o produto “oficial”,
essas modificações são fundamentais para softwares abertos.
Mais
comumente, o Hadoop é usado para processar cargas de trabalho de big data por
ser altamente escalável. Para aumentar a capacidade de processamento do cluster
do Hadoop, é possível adicionar mais servidores com os recursos de CPU e
memória necessários precisa para atender às necessidades. Algumas vantagens do
Hadoop são
- Velocidade e agilidade maiores
- Complexidade administrativa reduzida
- Integração com outros serviços na nuvem
- Disponibilidade e recuperação de desastres melhoradas
- Capacidade flexível
O Hadoop é
composto de módulos, cada módulo faz uma tarefa essencial para sistemas de
computador desenhados para a análise de dados, são eles:
- Distribuição de sistemas de arquivo: Esse módulo é um dos mais importantes pois permite a armazenagem de dados em um formato simples e acessível, entre um grande número de dispositivos de armazenamento linkados.
- MapReduce: lê dados do banco de dados, colocando-os em um formato adequado para análise e realização de operações matemáticas
- Common - Contém as bibliotecas e arquivos comuns e necessários para todos os módulos Hadoop.
- Yarn - Trata-se de uma plataforma de gerenciamento de recursos responsável pelo gerenciamento dos recursos computacionais em cluster, assim como pelo agendamento dos recursos.
Fontes:
Comentários
Postar um comentário