logo

Tutorial Apache Spark

Tutorial Apache Spark

O tutorial do Apache Spark fornece conceitos básicos e avançados do Spark. Nosso tutorial Spark foi desenvolvido para iniciantes e profissionais.

Spark é um mecanismo de análise unificado para processamento de dados em grande escala, incluindo módulos integrados para SQL, streaming, aprendizado de máquina e processamento de gráficos.

Nosso tutorial do Spark inclui todos os tópicos do Apache Spark com introdução ao Spark, instalação do Spark, arquitetura do Spark, componentes do Spark, RDD, exemplos em tempo real do Spark e assim por diante.

O que é faísca?

Apache Spark é uma estrutura de computação em cluster de código aberto. Seu objetivo principal é lidar com os dados gerados em tempo real.

O Spark foi construído no topo do Hadoop MapReduce. Ele foi otimizado para rodar na memória, enquanto abordagens alternativas como o MapReduce do Hadoop gravam dados de e para discos rígidos de computador. Portanto, o Spark processa os dados muito mais rápido do que outras alternativas.

História do Apache Spark

O Spark foi iniciado por Matei Zaharia no AMPLab da UC Berkeley em 2009. Seu código-fonte foi aberto em 2010 sob uma licença BSD.

Em 2013, o projeto foi adquirido pela Apache Software Foundation. Em 2014, o Spark surgiu como um projeto Apache de nível superior.

Recursos do Apache Spark

    Rápido- Ele fornece alto desempenho para dados em lote e streaming, usando um agendador DAG de última geração, um otimizador de consulta e um mecanismo de execução física.Fácil de usar- Facilita escrever a aplicação em Java, Scala, Python, R e SQL. Também fornece mais de 80 operadores de alto nível.Generalidade- Fornece uma coleção de bibliotecas, incluindo SQL e DataFrames, MLlib para aprendizado de máquina, GraphX ​​e Spark Streaming.Leve- É um mecanismo analítico leve e unificado usado para processamento de dados em grande escala.Corre em qualquer lugar- Pode ser executado facilmente em Hadoop, Apache Mesos, Kubernetes, autônomo ou na nuvem.

Uso do Spark

    Integração de dados:Os dados gerados pelos sistemas não são consistentes o suficiente para serem combinados para análise. Para buscar dados consistentes de sistemas, podemos usar processos como Extrair, transformar e carregar (ETL). Spark é usado para reduzir o custo e o tempo necessários para este processo ETL.Processamento de fluxo:É sempre difícil lidar com os dados gerados em tempo real, como arquivos de log. O Spark é capaz o suficiente para operar fluxos de dados e recusa operações potencialmente fraudulentas.Aprendizado de máquina:As abordagens de aprendizado de máquina tornam-se mais viáveis ​​e cada vez mais precisas devido ao aumento do volume de dados. Como o Spark é capaz de armazenar dados na memória e executar consultas repetidas rapidamente, facilita o trabalho em algoritmos de aprendizado de máquina.Análise interativa:Spark é capaz de gerar a resposta rapidamente. Assim, em vez de executar consultas predefinidas, podemos tratar os dados de forma interativa.

Pré-requisito

Antes de aprender Spark, você deve ter um conhecimento básico de Hadoop.

Público

Nosso tutorial Spark foi desenvolvido para ajudar iniciantes e profissionais.

Problemas

Garantimos que você não encontrará nenhum problema com este tutorial do Spark. Porém, se houver algum erro, poste o problema no formulário de contato.