Resultados da pesquisa a pedido "apache-spark"
Como usar o TwitterUtils no shell Spark?
Estou tentando usar o twitterUtils no Spark Shell (onde eles não estão disponíveis por padrão). Adicionei o seguinte ...
Transmissão Spark: HDFS
Não consigo fazer meu trabalho do Spark transmitir arquivos "antigos" do HDFS.Se meu trabalho do Spark estiver desativado por algum motivo (por exemplo, demonstração, implantação), mas a gravação / migração para o diretório HDFS for contínua, eu ...
Como compor o nome da coluna usando o valor de outra coluna para withColumn no Scala Spark
Estou tentando adicionar uma nova coluna a umDataFrame. O valor desta coluna é o valor de outra coluna cujo nome depende de outras colunas da mesmaDataFrame. Por exemplo, dado o seguinte: +---+---+----+----+ | A| B| A_1| B_2| ...
A execução de fios com faísca não funciona com Java 8
Eu tenho cluster com 1 mestre e 6 escravos que usa a versão pré-criada do hadoop 2.6.0 e spark 1.6.2. Eu estava executando os trabalhos hadoop MR e spark sem nenhum problema com o openjdk 7 instalado em todos os nós. No entanto, quando ...
Número de partições do Spark Dataframe
Alguém pode explicar sobre o número de partições que serão criadas para um Spark Dataframe. Eu sei que para um RDD, ao criá-lo, podemos mencionar o número de partições como abaixo. val RDD1 = sc.textFile("path" , 6)Mas, para o quadro de dados ...
Não é possível importar o sqlContext.implicits._ sem um erro pelo Jupyter
Quando tento usar oimport sqlContext.implicits._ no meu notebook Jupyter, recebo o seguinte erro: Name: Compile Error Message: <console>:25: error: stable identifier required, but $iwC.this.$VAL10.sqlContext.implicits found. import ...
Spark java.lang.StackOverflowError
Estou usando o spark para calcular o pagerank dos comentários dos usuários, mas continuo recebendo o Sparkjava.lang.StackOverflowError quando executo meu código em um grande conjunto de dados (entradas de 40k). ao executar o código em um pequeno ...
Contar o número de valores ausentes em um Spark de quadro de dados
eu tenho umdataset com valores ausentes, gostaria de obter o número de valores ausentes para cada coluna. A seguir, o que fiz, obtive o número de valores não ausentes. Como posso usá-lo para obter o número de valores ...
função pyspark approxQuantile
Eu tenho dataframe com essas colunasid, price, timestamp. Gostaria de encontrar o valor mediano agrupado porid. Estou usando esse código para encontrá-lo, mas está me dando esse erro. from pyspark.sql import DataFrameStatFunctions as statFunc ...
Erro de atributo: dividido em spark sql python usando lambda
No Spark SQL, estou usando Python e estou tentando trabalhar na saída RDD abaixo do sql. É uma lista de tweets. Preciso dividir palavras e extrair o @, mas ao usar o mapa e tentar dividir por espaços, estou recebendo a mensagem de ...