Resultados da pesquisa a pedido "pyspark"

13 a resposta

Como desativar o registro INFO no Spark?

Instalei o Spark usando o guia da AWS EC2 e posso iniciar o programa usando obin/pyspark script para chegar ao prompt do spark e também pode executar o Quick Start com êxito. No entanto, para a minha vida, não consigo descobrir como parar todos ...

2 a resposta

Qual é a diferença entre spark-submit e pyspark?

Se eu iniciar o pyspark e, em seguida, execute este comando: import my_script; spark = my_script.Sparker(sc); spark.collapse('./data/')Tudo está bem. Se, no entanto, eu tentar fazer a mesma coisa através da linha de comando e envio de spark, ...

4 a resposta

Como encontrar o valor máximo no par RDD?

Eu tenho um RDD de par de faíscas (chave, contagem) como abaixo Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3))Como encontrar a chave com maior contagem usando a API spark scala? EDIT: tipo de dados do par RDD é ...

2 a resposta

No pyspark, como você adiciona / concata uma string a uma coluna?

Eu gostaria de adicionar uma string a uma coluna existente. Por exemplo,df['col1'] tem valores como'1', '2', '3' etc e eu gostaria de concat string'000' na esquerda decol1 para que eu possa obter uma coluna (nova ou substituir a antiga não ...

9 a resposta

Reduza um par de valor-chave em um par de lista de chaves com o Apache Spark

Estou escrevendo um aplicativo Spark e quero combinar um conjunto de pares de valor-chave(K, V1), (K, V2), ..., (K, Vn) em um par de chave-valor múltiplo(K, [V1, V2, ..., Vn]). Eu sinto que deveria ser capaz de fazer isso usando oreduceByKey ...

3 a resposta

Como criar o Spark 1.2 com o Maven (fornece java.io.IOException: Não é possível executar o programa “javac”)?

Estou tentando criar o Spark 1.2 com o Maven. Meu objetivo é usar o PySpark com o YARN no Hadoop 2.2. Vi que isso só era possível com o Spark com o Maven. Primeiro, isso é verdade? Se for verdade, qual é o problema no log abaixo? Como faço para ...

1 a resposta

usando o pyspark, leia / grave imagens 2D no sistema de arquivos hadoop

Quero poder ler / gravar imagens em um sistema de arquivos hdfs e aproveitar a localidade hdfs. Eu tenho uma coleção de imagens onde cada imagem é composta por Matrizes 2D de uint16informações adicionais básicas armazenadas como um ...

5 a resposta

obtendo número de nós visíveis no PySpark

Estou executando algumas operações no PySpark e recentemente aumentamos o número de nós na minha configuração (que está no Amazon EMR). No entanto, embora eu tenha triplicado o número de nós (de 4 para 12), o desempenho parece não ter mudado. ...

11 a resposta

Carregar arquivo CSV com Spark

Eu sou novo no Spark e estou tentando ler dados CSV de um arquivo com o Spark. Aqui está o que estou fazendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect()Espero que esta chamada me forneça uma ...

3 a resposta

Como definir os valores de configuração do hadoop no pyspark

A versão Scala do SparkContext possui a propriedade sc.hadoopConfigurationEu usei isso com sucesso para definir propriedades do Hadoop (no Scala) por exemplo. sc.hadoopConfiguration.set("my.mapreduce.setting","someVal")No entanto, a ...