Resultados da pesquisa a pedido "apache-spark"
Por que o SparkSession executa duas vezes para uma ação?
Atualizei recentemente para o Spark 2.0 e estou vendo um comportamento estranho ao tentar criar um conjunto de dados simples a partir de seqüências de caracteres JSON. Aqui está um caso de teste simples: SparkSession spark ...
Como desnaturar dados com o SparkR?
UsandoSparkR como matrizes aninhadas podem ser "explodidas"? Eu tentei usarexplode igual a: dat <- nested_spark_df %>% mutate(a=explode(metadata)) %>% head()mas, embora o acima não cause uma exceção, ele não promove os campos aninhados ...
O trabalho de streaming estável do Spark trava no ponto de verificação para o S3 após um longo tempo de atividade
Estive recentemente testando o nosso aplicativo Spark Streaming. O teste de estresse ingere cerca de 20.000 mensagens / s com tamanhos de mensagens variando entre 200 bytes - 1 K em Kafka, onde o Spark Streaming está lendo lotes a cada ...
Leia o tópico Kafka em uma tarefa em lote do Spark
Estou escrevendo um trabalho em lotes Spark (v1.6.0) que lê de um tópico Kafka. Para isso eu posso usarorg.apache.spark.streaming.kafka.KafkaUtils#createRDD no entanto, preciso definir os deslocamentos para todas as partições e ...
Por que o rdd.map (identity) .cache fica lento quando os itens do rdd são grandes?
Eu descobri que ao usar.map( identity ).cache em um campo, fica muito lento se os itens forem grandes. Embora seja praticamente instantâneo caso contrário. Nota: isso provavelmente está relacionado aessa ...
spark.sql.crossJoin.enabled para Spark 2.x
Estou usando o 'preview' Google DataProc Image 1.1 com Spark 2.0.0. Para concluir uma de minhas operações, tenho que concluir um produto cartesiano. Desde a versão 2.0.0, foi criado um parâmetro de configuração do spark (spark.sql.cross ...
Spark: Dataframe.subtract retorna tudo quando a chave não é a primeira na linha
Estou tentando usarSQLContext.subtract () [https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.subtract] no Spark 1.6.1 para remover linhas de um quadro de dados com base em uma coluna de outro quadro de dados. ...
Necessidade Spark do HDFS
Oi alguém pode me explicar, o Apache 'Spark Standalone' precisa de HDFS? Se necessário, como o Spark usa o tamanho do bloco HDFS durante a execução do aplicativo Spark. Quero dizer, estou tentando entender qual será a função do HDFS durante a ...
Como encontrar a mediana no Apache Spark com a API Python Dataframe?
A API do Pyspark fornece muitas funções agregadas, exceto a mediana. O Spark 2 vem com approxQuantile, que fornece quantis aproximados, mas a mediana exata é muito cara de calcular. Existe uma maneira mais Pyspark de calcular mediana para uma ...
Leia de uma tabela de colméia e escreva de volta usando spark sql
Estou lendo uma tabela do Hive usando o Spark SQL e atribuindo-a a um scala val val x = sqlContext.sql("select * from some_table")Então, estou fazendo algum processamento com o dataframe x e finalmente criando um dataframe y, que tem o esquema ...