Resultados da pesquisa a pedido "apache-spark"
vários erros do SparkContexts no tutorial
Estou tentando executar o tutorial básico do pyspark Spark + Python - consulte http://spark.apache.org/docs/0.9.0/quick-start.html [http://spark.apache.org/docs/0.9.0/quick-start.html] Quando tento inicializar um novo SparkContext, from pyspark ...
importando o pyspark no shell python
Esta é uma cópia da pergunta de outra pessoa em outro fórum que nunca foi respondida, então pensei em pedir novamente aqui, pois tenho o mesmo ...
Use o Spark para listar todos os arquivos em um diretório Hadoop HDFS?
Desejo percorrer todos os arquivos de texto em um diretório do Hadoop e contar todas as ocorrências da palavra "erro". Existe uma maneira de fazer umhadoop fs -ls /users/ubuntu/ listar todos os arquivos em um diretório com a API do Apache Spark ...
Spark Context Textfile: carrega vários arquivos
Eu preciso processar vários arquivos espalhados por vários diretórios. Eu gostaria de carregar tudo isso em um único RDD e depois executar o mapa / redução nele. Vejo que o SparkContext é capaz de carregar vários arquivos de um único diretório ...
Como analisar XML no Spark com java se as tags de colunas tiverem o mesmo nome
Tentei analisar o XML no spark 2.2 com o java 1.8, mas isso não está fornecendo o conjunto de dados esperado. amostra xml - <?xml version="1.0" encoding="UTF-8"?> <RECORD> <PROP NAME="product.url"> <PVAL>url1</PVAL> </PROP> <PROP ...
Qual é a diferença entre uma partição RDD e uma fatia?
oGuia de programação do Spark [http://spark.apache.org/docs/latest/scala-programming-guide.html]menciona fatias como um recurso de RDDs (coleções paralelas ou conjuntos de dados Hadoop.) ("O Spark executará uma tarefa para cada fatia do ...
A amostra do Spark está muito lenta
Estou tentando executar uma amostra aleatória simples com Scala a partir de uma tabela existente, contendo cerca de 100e6 registros. import org.apache.spark.sql.SaveMode val nSamples = 3e5.toInt val frac = 1e-5 val table = ...
Instalando o Apache Spark no Windows
Eu preciso instalarApache Spark [http://spark.apache.org/]em uma máquina Windows. De acordo com a documentação, eu deveria ter o sbt instalado na minha máquina e também substituir suas opções padrão para usar no máximo 2G de RAM. Depois de ...
Como escrever em CSV no Spark
Estou tentando encontrar uma maneira eficaz de salvar o resultado do meu Spark Job como um arquivo csv. Estou usando o Spark com Hadoop e até agora todos os meus arquivos são salvos comopart-00000. Alguma idéia de como fazer o meu spark saving ...
Como os trabalhos são atribuídos aos executores no Spark Streaming?
Digamos que eu tenha 2 ou mais executores em um aplicativo Spark Streaming. Defina o tempo de lote de 10 segundos, para que um trabalho seja iniciado a cada 10 segundos lendo a entrada do meu HDFS. Se todo trabalho durar mais de 10 segundos, o ...