Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Por que o SparkSession executa duas vezes para uma ação?

Atualizei recentemente para o Spark 2.0 e estou vendo um comportamento estranho ao tentar criar um conjunto de dados simples a partir de seqüências de caracteres JSON. Aqui está um caso de teste simples: SparkSession spark ...

2 a resposta

Como desnaturar dados com o SparkR?

UsandoSparkR como matrizes aninhadas podem ser "explodidas"? Eu tentei usarexplode igual a: dat <- nested_spark_df %>% mutate(a=explode(metadata)) %>% head()mas, embora o acima não cause uma exceção, ele não promove os campos aninhados ...

1 a resposta

O trabalho de streaming estável do Spark trava no ponto de verificação para o S3 após um longo tempo de atividade

Estive recentemente testando o nosso aplicativo Spark Streaming. O teste de estresse ingere cerca de 20.000 mensagens / s com tamanhos de mensagens variando entre 200 bytes - 1 K em Kafka, onde o Spark Streaming está lendo lotes a cada ...

1 a resposta

Leia o tópico Kafka em uma tarefa em lote do Spark

Estou escrevendo um trabalho em lotes Spark (v1.6.0) que lê de um tópico Kafka. Para isso eu posso usarorg.apache.spark.streaming.kafka.KafkaUtils#createRDD no entanto, preciso definir os deslocamentos para todas as partições e ...

1 a resposta

Por que o rdd.map (identity) .cache fica lento quando os itens do rdd são grandes?

Eu descobri que ao usar.map( identity ).cache em um campo, fica muito lento se os itens forem grandes. Embora seja praticamente instantâneo caso contrário. Nota: isso provavelmente está relacionado aessa ...

3 a resposta

spark.sql.crossJoin.enabled para Spark 2.x

Estou usando o 'preview' Google DataProc Image 1.1 com Spark 2.0.0. Para concluir uma de minhas operações, tenho que concluir um produto cartesiano. Desde a versão 2.0.0, foi criado um parâmetro de configuração do spark (spark.sql.cross ...

1 a resposta

Spark: Dataframe.subtract retorna tudo quando a chave não é a primeira na linha

Estou tentando usarSQLContext.subtract () [https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.subtract] no Spark 1.6.1 para remover linhas de um quadro de dados com base em uma coluna de outro quadro de dados. ...

1 a resposta

Necessidade Spark do HDFS

Oi alguém pode me explicar, o Apache 'Spark Standalone' precisa de HDFS? Se necessário, como o Spark usa o tamanho do bloco HDFS durante a execução do aplicativo Spark. Quero dizer, estou tentando entender qual será a função do HDFS durante a ...

1 a resposta

Como encontrar a mediana no Apache Spark com a API Python Dataframe?

A API do Pyspark fornece muitas funções agregadas, exceto a mediana. O Spark 2 vem com approxQuantile, que fornece quantis aproximados, mas a mediana exata é muito cara de calcular. Existe uma maneira mais Pyspark de calcular mediana para uma ...

3 a resposta

Leia de uma tabela de colméia e escreva de volta usando spark sql

Estou lendo uma tabela do Hive usando o Spark SQL e atribuindo-a a um scala val val x = sqlContext.sql("select * from some_table")Então, estou fazendo algum processamento com o dataframe x e finalmente criando um dataframe y, que tem o esquema ...