Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Spark: Auto-supressão não permitida ao gravar arquivos grandes no HDFS

Estou escrevendo um arquivo grande no HDFS usando o spark. Basicamente, o que eu estava fazendo era juntar 3 arquivos grandes e, em seguida, converter o dataframe resultante em json usando toJSON () e, em seguida, usar saveAsTextFile para ...

1 a resposta

Representar parâmetros aninhados para a consulta Neo4j no Scala

Tentei executar consultas Neo4j com parâmetros na forma do mapa [String, Anyref], que funciona muito bem. No entanto, gostaria de enviar os dados para o Neo4j no formato do lote, para que o resultado fosse Map [String, Map [String, AnyRef]] ou ...

1 a resposta

Aplicar função a cada linha do Spark DataFrame

Estou no Spark 1.3. Gostaria de aplicar uma função a cada linha de um quadro de dados. Esta função hashes cada coluna da linha e retorna uma lista dos hashes. dataframe.map(row => row.toSeq.map(col => col.hashCode))Eu recebo ...

8 a resposta

O que é RDD no Spark

A definição diz: RDD é uma coleção distribuída imutável de objetos Não entendo bem o que isso significa. São como dados (objetos particionados) armazenados no disco rígido? Em caso afirmativo, como os RDDs podem ter classes definidas pelo ...

4 a resposta

Como criar um DataFrame fora das linhas, mantendo o esquema existente?

Se eu ligar para o mapa oumapPartition e minha função recebe linhas do PySpark, qual é a maneira natural de criar um PySpark local ou o Pandas DataFrame? Algo que combina as linhas e mantém o esquema? Atualmente eu faço algo como: def ...

1 a resposta

Erro Spark __getnewargs__

Estou tentando limpar um Spark DataFrame, mapeando-o para RDD e depois para o DataFrame. Aqui está um exemplo de brinquedo: def replace_values(row,sub_rules): d = row.asDict() for col,old_val,new_val in sub_rules: if d[col] == old_val: d[col] = ...

2 a resposta

Spark: processando vários tópicos kafka em paralelo

estou usandospark 1.5.2. Preciso executar o trabalho de streaming de faísca com o kafka como fonte de streaming. Preciso ler de vários tópicos no kafka e processar cada tópico de maneira diferente. É uma boa ideia fazer isso no mesmo trabalho? ...

5 a resposta

Por que o Spark falha com "Falha ao obter broadcast_0_piece0 de broadcast_0" no modo local?

Estou executando esse trecho para classificar um RDD de pontos, ordenando o RDD e obtendo os pontos K-mais próximos de um determinado ponto: def getKNN(sparkContext:SparkContext, k:Int, point2:Array[Double], pointsRDD:RDD[Array[Double]]): ...

1 a resposta

Fluxo de pilha devido à longa linhagem RDD

Eu tenho milhares de arquivos pequenos no HDFS. Como processar um subconjunto de arquivos um pouco menor (que é novamente em milhares), fileList contém uma lista de caminhos de arquivos que precisam ser processados. // fileList == list of ...

9 a resposta

Causado por: ERRO XSDB6: Outra instância do Derby já pode ter inicializado o banco de dados

Estou tentando executar o SparkSQL: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)Mas o erro que estou recebendo está abaixo: ... 125 more Caused by: java.sql.SQLException: Another instance of Derby may have already booted the ...