Resultados da pesquisa a pedido "pyspark"
Como desativar o registro INFO no Spark?
Instalei o Spark usando o guia da AWS EC2 e posso iniciar o programa usando obin/pyspark script para chegar ao prompt do spark e também pode executar o Quick Start com êxito. No entanto, para a minha vida, não consigo descobrir como parar todos ...
Qual é a diferença entre spark-submit e pyspark?
Se eu iniciar o pyspark e, em seguida, execute este comando: import my_script; spark = my_script.Sparker(sc); spark.collapse('./data/')Tudo está bem. Se, no entanto, eu tentar fazer a mesma coisa através da linha de comando e envio de spark, ...
Como encontrar o valor máximo no par RDD?
Eu tenho um RDD de par de faíscas (chave, contagem) como abaixo Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3))Como encontrar a chave com maior contagem usando a API spark scala? EDIT: tipo de dados do par RDD é ...
No pyspark, como você adiciona / concata uma string a uma coluna?
Eu gostaria de adicionar uma string a uma coluna existente. Por exemplo,df['col1'] tem valores como'1', '2', '3' etc e eu gostaria de concat string'000' na esquerda decol1 para que eu possa obter uma coluna (nova ou substituir a antiga não ...
Reduza um par de valor-chave em um par de lista de chaves com o Apache Spark
Estou escrevendo um aplicativo Spark e quero combinar um conjunto de pares de valor-chave(K, V1), (K, V2), ..., (K, Vn) em um par de chave-valor múltiplo(K, [V1, V2, ..., Vn]). Eu sinto que deveria ser capaz de fazer isso usando oreduceByKey ...
Como criar o Spark 1.2 com o Maven (fornece java.io.IOException: Não é possível executar o programa “javac”)?
Estou tentando criar o Spark 1.2 com o Maven. Meu objetivo é usar o PySpark com o YARN no Hadoop 2.2. Vi que isso só era possível com o Spark com o Maven. Primeiro, isso é verdade? Se for verdade, qual é o problema no log abaixo? Como faço para ...
usando o pyspark, leia / grave imagens 2D no sistema de arquivos hadoop
Quero poder ler / gravar imagens em um sistema de arquivos hdfs e aproveitar a localidade hdfs. Eu tenho uma coleção de imagens onde cada imagem é composta por Matrizes 2D de uint16informações adicionais básicas armazenadas como um ...
obtendo número de nós visíveis no PySpark
Estou executando algumas operações no PySpark e recentemente aumentamos o número de nós na minha configuração (que está no Amazon EMR). No entanto, embora eu tenha triplicado o número de nós (de 4 para 12), o desempenho parece não ter mudado. ...
Carregar arquivo CSV com Spark
Eu sou novo no Spark e estou tentando ler dados CSV de um arquivo com o Spark. Aqui está o que estou fazendo: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect()Espero que esta chamada me forneça uma ...
Como definir os valores de configuração do hadoop no pyspark
A versão Scala do SparkContext possui a propriedade sc.hadoopConfigurationEu usei isso com sucesso para definir propriedades do Hadoop (no Scala) por exemplo. sc.hadoopConfiguration.set("my.mapreduce.setting","someVal")No entanto, a ...