Resultados da pesquisa a pedido "apache-spark"

3 a resposta

Como usar o TwitterUtils no shell Spark?

Estou tentando usar o twitterUtils no Spark Shell (onde eles não estão disponíveis por padrão). Adicionei o seguinte ...

3 a resposta

Transmissão Spark: HDFS

Não consigo fazer meu trabalho do Spark transmitir arquivos "antigos" do HDFS.Se meu trabalho do Spark estiver desativado por algum motivo (por exemplo, demonstração, implantação), mas a gravação / migração para o diretório HDFS for contínua, eu ...

2 a resposta

Como compor o nome da coluna usando o valor de outra coluna para withColumn no Scala Spark

Estou tentando adicionar uma nova coluna a umDataFrame. O valor desta coluna é o valor de outra coluna cujo nome depende de outras colunas da mesmaDataFrame. Por exemplo, dado o seguinte: +---+---+----+----+ | A| B| A_1| B_2| ...

1 a resposta

A execução de fios com faísca não funciona com Java 8

Eu tenho cluster com 1 mestre e 6 escravos que usa a versão pré-criada do hadoop 2.6.0 e spark 1.6.2. Eu estava executando os trabalhos hadoop MR e spark sem nenhum problema com o openjdk 7 instalado em todos os nós. No entanto, quando ...

1 a resposta

Número de partições do Spark Dataframe

Alguém pode explicar sobre o número de partições que serão criadas para um Spark Dataframe. Eu sei que para um RDD, ao criá-lo, podemos mencionar o número de partições como abaixo. val RDD1 = sc.textFile("path" , 6)Mas, para o quadro de dados ...

2 a resposta

Não é possível importar o sqlContext.implicits._ sem um erro pelo Jupyter

Quando tento usar oimport sqlContext.implicits._ no meu notebook Jupyter, recebo o seguinte erro: Name: Compile Error Message: <console>:25: error: stable identifier required, but $iwC.this.$VAL10.sqlContext.implicits found. import ...

3 a resposta

Spark java.lang.StackOverflowError

Estou usando o spark para calcular o pagerank dos comentários dos usuários, mas continuo recebendo o Sparkjava.lang.StackOverflowError quando executo meu código em um grande conjunto de dados (entradas de 40k). ao executar o código em um pequeno ...

1 a resposta

Contar o número de valores ausentes em um Spark de quadro de dados

eu tenho umdataset com valores ausentes, gostaria de obter o número de valores ausentes para cada coluna. A seguir, o que fiz, obtive o número de valores não ausentes. Como posso usá-lo para obter o número de valores ...

2 a resposta

função pyspark approxQuantile

Eu tenho dataframe com essas colunasid, price, timestamp. Gostaria de encontrar o valor mediano agrupado porid. Estou usando esse código para encontrá-lo, mas está me dando esse erro. from pyspark.sql import DataFrameStatFunctions as statFunc ...

2 a resposta

Erro de atributo: dividido em spark sql python usando lambda

No Spark SQL, estou usando Python e estou tentando trabalhar na saída RDD abaixo do sql. É uma lista de tweets. Preciso dividir palavras e extrair o @, mas ao usar o mapa e tentar dividir por espaços, estou recebendo a mensagem de ...