Sua solução de gerenciamento de data lake de ponta a ponta

O HPCC Systems oferece a capacidade de desenvolver rapidamente os dados de que seu aplicação precisa.

Simples. Rápido. Preciso. Baixo Custo.

Uma plataforma criada especificamente para engenharia de dados de alta velocidade.

A principal vantagem do HPCC Systems vem de sua arquitetura central simplificada. Melhor desempenho, resultados quase em tempo real e escala operacional de espectro total — sem uma equipe de desenvolvimento numerosa, complementos desnecessários ou aumento dos custos de processamento.

Descubra o suporte nativo à nuvem

Saiba como possuir suporte nativo à nuvem pode melhorar suas implantações em nuvem atuais. O HPCC Systems atualmente combina a usabilidade de nossa plataforma bare metal com a automação de Kubernetes para facilitar a configuração, o gerenciamento e o dimensionamento de seus ambientes de big data e data lake.

Executa em Kubernetes

  • Suporte para Azure Kubernetes Service
  • Suporte para Amazon Elastic Kubernetes Service

A nova arquitetura de plano de armazenamento suporta

  • Armazenamento de objetos: AWS Simple Storage Service (S3) e Azure Blob Storage
  • Armazenamento de disco: AWS Elastic Block Storage e Azure Files/Azure Disks

Elasticidade

  • Dimensione um cluster sem mover os dados
  • Ativação automática para habilitar o processamento sob demanda por recursos de computação

Segurança

  • Criptografia de ponta a ponta
  • Opções de Service Mesh (Linkerd e Istio)
  • Suporte OAuth 2.0 para Autenticação, com suporte integrado para Azure AD
  • JWT

Funcionalidade

Sete aspectos do HPCC Systems tornam mais fácil o processamento e análise de big data.

  • Os clusters de processamento usam hardware comum e rede de alta velocidade.
  • Os clusters são executados no sistema operacional Linux.
  • Suporta SOAP, XML, HTTP/HTTPS, REST e JSON.
  • A Enterprise Services Platform (ESP) permite o acesso do usuário final às consultas Roxie por meio de protocolos comuns de serviços da Web.
  • Thor e Roxie são resilientes a falhas, com base na replicação dentro do cluster.
  • Os sistemas armazenam réplicas de partes de arquivos em vários nós para proteção contra falhas de disco ou nó.
  • Ambos são projetados para resiliência e disponibilidade contínua em caso de falhas de hardware.
  • Ferramentas administrativas para configuração de ambiente, monitoramento de trabalho, gerenciamento de desempenho do sistema, gerenciamento de sistema de arquivo distribuído e muito mais.
  • Módulos de extensão para análise de log na web, processamento de linguagem natural, aprendizado de máquina, criptografia de dados e muito mais.

A Enterprise Control Language (ECL) declarativa, modular e extensível foi projetada especificamente para o processamento de big data.

  • Altamente eficiente — realize tarefas de big data com muito menos código.
  • Flexível — pode ser usada tanto para processamento de dados complexos em um cluster Thor quanto para processamento de consultas e relatórios em um cluster Roxie.
  • A IDE gráfica para ECL simplifica o desenvolvimento, teste e depuração.
  • O compilador ECL reconhece o cluster e otimiza automaticamente o código para processamento paralelo.
  • O código ECL é compilado em C++ otimizado e pode ser facilmente estendido usando bibliotecas C++.

Os dois sistemas principais, Thor e Roxie, trabalham juntos para fornecer uma solução completa para análise e processamento de big data. Dados e índices para dar suporte a consultas são pré-criados no Thor e depois implantados no Roxie.

Thor, o Motor de Refinaria de Dados, é o mecanismo de ingestão e enriquecimento.

  • Thor usa uma topologia mestre-agente na qual os agentes fornecem armazenamento de dados localizados e poder de processamento, enquanto o mestre monitora e coordena as atividades dos nós agentes e comunica informações sobre o status do trabalho.
  • Os componentes de middleware fornecem serviços de nome e outros serviços de suporte ao ambiente de execução de tarefas distribuídas.

Roxie, o Motor de Entrega de Informações, fornece recursos de armazenamento de dados e processamento on-line de alto desempenho.

  • Cada nó Roxie executa um processo de Servidor e um processo de Agente. O processo do servidor lida com as solicitações de consulta recebidas dos usuários, aloca o processamento das consultas aos agentes apropriados no cluster Roxie, agrupa os resultados e retorna a carga útil ao cliente.
  • As consultas podem incluir junções e outras transformações complexas, e as cargas podem conter dados estruturados ou não estruturados.
  • Thor DFS é orientado a registros e otimizado para ETL (extract-transform-load) de big data. Um arquivo de entrada de big data contendo registros de tamanho fixo ou variável em formatos padrão ou personalizados é particionado no DFS do cluster, com cada nó recebendo aproximadamente a mesma quantidade de dados de registro e sem divisão de registros individuais.
  • O Roxie DFS é baseado em índice e otimizado para processamento de consultas simultâneas. Com base em uma estrutura de árvore B+ personalizada, o sistema permite uma recuperação de dados rápida e eficiente.
  • Escalabilidade horizontal de um nó para milhares de nós.
  • Thor pode processar até bilhões de registros por segundo.
  • A Roxie pode oferecer suporte a milhares de usuários com tempo de resposta abaixo de um segundo, dependendo do aplicativo.

Como o HPCC Systems desempenha?

Benchmarks e comparações com plataformas competitivas

A solução de gerenciamento de data lake de ponta a ponta

Aumente a capacidade de resposta e a escalabilidade enquanto reduz os custos associados a conjuntos de dados extremamente grandes e não estruturados.

Documento Técnico: HPCC Systems vs Spark

Uma análise comparativa entre Spark e arquitetura de cluster Thor do HPCC Systems em instâncias da AWS.

Benchmarks

Entenda as diferenças entre HPCC Systems e Spark do ponto de vista de como eles resolvem problemas de dados, arquitetura de tecnologia e modelo de programação.

Resultados do Terasort

Como calcular com precisão o ROI real de um sistema de análise de Big Data

Comparação PigMix

ECL supera Pig e Java significativamente no benchmark Hadoop PigMix em uma configuração de hardware idêntica

Comparação com o Hadoop

Saiba como a plataforma HPCC Systems se compara ao Hadoop e por que o HPCC Systems é uma alternativa superior

Mais sobre HPCC Systems

White Papers

Mais de uma dúzia de white papers fornecem análises aprofundadas de tópicos importantes para os membros da comunidade HPCC Systems e qualquer pessoa interessada em processamento e análise de big data.

Livros

O HPCC Systems oferece vários livros que são concebidos como referência para pesquisadores, programadores, gerentes de negócios, empreendedores e investidores na indústria de big data.

Versátil. Flexível. Refinado.

Uma usuária experiente do HPCC Systems explica os benefícios e as vantagens de usar o HPCC Systems como sua solução de gerenciamento de big data.

Preparar. Definir. Agir.

Você está pronto para começar a usar o HPCC Systems? Visite nossa página Comece a Usar para explorar o poder da plataforma HPCC Systems, testar o código ECL em um playground virtual e aprender como começar a usar nossa máquina virtual ou criar seu próprio cluster em nuvem. Ainda quer aprender mais? Continue lendo abaixo.