Resultados da pesquisa a pedido "apache-spark"

4 a resposta

vários erros do SparkContexts no tutorial

Estou tentando executar o tutorial básico do pyspark Spark + Python - consulte http://spark.apache.org/docs/0.9.0/quick-start.html [http://spark.apache.org/docs/0.9.0/quick-start.html] Quando tento inicializar um novo SparkContext, from pyspark ...

17 a resposta

importando o pyspark no shell python

Esta é uma cópia da pergunta de outra pessoa em outro fórum que nunca foi respondida, então pensei em pedir novamente aqui, pois tenho o mesmo ...

2 a resposta

Use o Spark para listar todos os arquivos em um diretório Hadoop HDFS?

Desejo percorrer todos os arquivos de texto em um diretório do Hadoop e contar todas as ocorrências da palavra "erro". Existe uma maneira de fazer umhadoop fs -ls /users/ubuntu/ listar todos os arquivos em um diretório com a API do Apache Spark ...

4 a resposta

Spark Context Textfile: carrega vários arquivos

Eu preciso processar vários arquivos espalhados por vários diretórios. Eu gostaria de carregar tudo isso em um único RDD e depois executar o mapa / redução nele. Vejo que o SparkContext é capaz de carregar vários arquivos de um único diretório ...

0 a resposta

Como analisar XML no Spark com java se as tags de colunas tiverem o mesmo nome

Tentei analisar o XML no spark 2.2 com o java 1.8, mas isso não está fornecendo o conjunto de dados esperado. amostra xml - <?xml version="1.0" encoding="UTF-8"?> <RECORD> <PROP NAME="product.url"> <PVAL>url1</PVAL> </PROP> <PROP ...

1 a resposta

Qual é a diferença entre uma partição RDD e uma fatia?

oGuia de programação do Spark [http://spark.apache.org/docs/latest/scala-programming-guide.html]menciona fatias como um recurso de RDDs (coleções paralelas ou conjuntos de dados Hadoop.) ("O Spark executará uma tarefa para cada fatia do ...

2 a resposta

A amostra do Spark está muito lenta

Estou tentando executar uma amostra aleatória simples com Scala a partir de uma tabela existente, contendo cerca de 100e6 registros. import org.apache.spark.sql.SaveMode val nSamples = 3e5.toInt val frac = 1e-5 val table = ...

1 a resposta

Instalando o Apache Spark no Windows

Eu preciso instalarApache Spark [http://spark.apache.org/]em uma máquina Windows. De acordo com a documentação, eu deveria ter o sbt instalado na minha máquina e também substituir suas opções padrão para usar no máximo 2G de RAM. Depois de ...

6 a resposta

Como escrever em CSV no Spark

Estou tentando encontrar uma maneira eficaz de salvar o resultado do meu Spark Job como um arquivo csv. Estou usando o Spark com Hadoop e até agora todos os meus arquivos são salvos comopart-00000. Alguma idéia de como fazer o meu spark saving ...

1 a resposta

Como os trabalhos são atribuídos aos executores no Spark Streaming?

Digamos que eu tenha 2 ou mais executores em um aplicativo Spark Streaming. Defina o tempo de lote de 10 segundos, para que um trabalho seja iniciado a cada 10 segundos lendo a entrada do meu HDFS. Se todo trabalho durar mais de 10 segundos, o ...