Resultados da pesquisa a pedido "apache-spark"
Spark: Auto-supressão não permitida ao gravar arquivos grandes no HDFS
Estou escrevendo um arquivo grande no HDFS usando o spark. Basicamente, o que eu estava fazendo era juntar 3 arquivos grandes e, em seguida, converter o dataframe resultante em json usando toJSON () e, em seguida, usar saveAsTextFile para ...
Representar parâmetros aninhados para a consulta Neo4j no Scala
Tentei executar consultas Neo4j com parâmetros na forma do mapa [String, Anyref], que funciona muito bem. No entanto, gostaria de enviar os dados para o Neo4j no formato do lote, para que o resultado fosse Map [String, Map [String, AnyRef]] ou ...
Aplicar função a cada linha do Spark DataFrame
Estou no Spark 1.3. Gostaria de aplicar uma função a cada linha de um quadro de dados. Esta função hashes cada coluna da linha e retorna uma lista dos hashes. dataframe.map(row => row.toSeq.map(col => col.hashCode))Eu recebo ...
O que é RDD no Spark
A definição diz: RDD é uma coleção distribuída imutável de objetos Não entendo bem o que isso significa. São como dados (objetos particionados) armazenados no disco rígido? Em caso afirmativo, como os RDDs podem ter classes definidas pelo ...
Como criar um DataFrame fora das linhas, mantendo o esquema existente?
Se eu ligar para o mapa oumapPartition e minha função recebe linhas do PySpark, qual é a maneira natural de criar um PySpark local ou o Pandas DataFrame? Algo que combina as linhas e mantém o esquema? Atualmente eu faço algo como: def ...
Erro Spark __getnewargs__
Estou tentando limpar um Spark DataFrame, mapeando-o para RDD e depois para o DataFrame. Aqui está um exemplo de brinquedo: def replace_values(row,sub_rules): d = row.asDict() for col,old_val,new_val in sub_rules: if d[col] == old_val: d[col] = ...
Spark: processando vários tópicos kafka em paralelo
estou usandospark 1.5.2. Preciso executar o trabalho de streaming de faísca com o kafka como fonte de streaming. Preciso ler de vários tópicos no kafka e processar cada tópico de maneira diferente. É uma boa ideia fazer isso no mesmo trabalho? ...
Por que o Spark falha com "Falha ao obter broadcast_0_piece0 de broadcast_0" no modo local?
Estou executando esse trecho para classificar um RDD de pontos, ordenando o RDD e obtendo os pontos K-mais próximos de um determinado ponto: def getKNN(sparkContext:SparkContext, k:Int, point2:Array[Double], pointsRDD:RDD[Array[Double]]): ...
Fluxo de pilha devido à longa linhagem RDD
Eu tenho milhares de arquivos pequenos no HDFS. Como processar um subconjunto de arquivos um pouco menor (que é novamente em milhares), fileList contém uma lista de caminhos de arquivos que precisam ser processados. // fileList == list of ...
Causado por: ERRO XSDB6: Outra instância do Derby já pode ter inicializado o banco de dados
Estou tentando executar o SparkSQL: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)Mas o erro que estou recebendo está abaixo: ... 125 more Caused by: java.sql.SQLException: Another instance of Derby may have already booted the ...