Resultados da pesquisa a pedido "apache-spark"

1 a resposta

GroupByKey e crie listas de valores pyspark sql dataframe

Então, eu tenho um spark dataframe que se parece com: a | b | c 5 | 2 | 1 5 | 4 | 3 2 | 4 | 2 2 | 3 | 7E eu quero agrupar por colunaa, crie uma lista de valores da coluna b e esqueça c. O dataframe de saída seria: a | b_list 5 | (2,4) 2 | ...

2 a resposta

Qual a diferença entre o Spark Standalone, YARN e o modo local?

Spark Independente: Nesse modo, percebi que você executava os nós mestre e de trabalho em sua máquina local. Isso significa que você tem uma instância do YARN em execução na minha máquina local? Desde que eu instalei o Spark, ele veio com o ...

1 a resposta

Executar SQL no cache Ignite de BinaryObjects

Estou criando um cache de BinaryObject a partir de um quadro de dados e, em seguida, desejo executar o SQL nesse cache de ignição. Aqui está o meu código ondebank é o quadro de dados que contém três campos (id, nome e idade): val ic = new ...

1 a resposta

configure spark.streaming.kafka.maxRatePerPartition para createDirectStream

Preciso aumentar a taxa de entrada por partição para meu aplicativo e uso.set("spark.streaming.kafka.maxRatePerPartition",100) para a configuração. A duração do fluxo é de 10s, então espero que o processo5*100*10=5000 mensagens para este lote. No ...

2 a resposta

Conjunto de dados Spark 2.0 vs DataFrame

começando com o spark 2.0.1 eu tenho algumas perguntas. Eu li muita documentação, mas até agora não consegui encontrar respostas suficientes: Qual é a diferença entredf.select("foo")df.select($"foo")eu entendi ...

1 a resposta

SPARK: YARN mata contêineres por exceder os limites de memória

No momento, estamos enfrentando um problema em que as tarefas do Spark estão vendo um número de contêineres serem mortos por exceder os limites de memória ao executar no YARN. 16/11/18 17:58:52 WARN TaskSetManager: Lost task 53.0 in stage 49.0 ...

4 a resposta

Qual é o significado dos parâmetros partitionColumn, lowerBound, upperBound, numPartitions?

Ao buscar dados do SQL Server por meio de uma conexão JDBC no Spark, descobri que posso definir alguns parâmetros de paralelização, comopartitionColumn, lowerBound, upperBoundenumPartitions. Eu passeidocumentação do ...

1 a resposta

Spark / Scala: preencha nan com a última boa observação

Estou usando o spark 2.0.1 e quero preencher os valores nan com o último valor conhecido bom na coluna. A única referência para a faísca que eu pude encontrarSpark / Scala: preenchimento avançado com última ...

2 a resposta

SparklyR removendo uma tabela do contexto do Spark

Deseja remover uma única tabela de dados do Contexto Spark ('sc'). Eu sei que uma única tabela em cache pode ser des-armazenada em cache, mas isso não é o mesmo que remover um objeto do sc - até onde eu sei. library(sparklyr) library(dplyr) ...

3 a resposta

Como fazer junção externa esquerda no spark sql?

Eu estou tentando fazer uma junção externa esquerda no spark (1.6.2) e não funciona. Minha consulta sql é assim: sqlContext.sql("select t.type, t.uuid, p.uuid from symptom_type t LEFT JOIN plugin p ON t.uuid = p.uuid where t.created_year = 2016 ...