Resultados da pesquisa a pedido "apache-spark"
GroupByKey e crie listas de valores pyspark sql dataframe
Então, eu tenho um spark dataframe que se parece com: a | b | c 5 | 2 | 1 5 | 4 | 3 2 | 4 | 2 2 | 3 | 7E eu quero agrupar por colunaa, crie uma lista de valores da coluna b e esqueça c. O dataframe de saída seria: a | b_list 5 | (2,4) 2 | ...
Qual a diferença entre o Spark Standalone, YARN e o modo local?
Spark Independente: Nesse modo, percebi que você executava os nós mestre e de trabalho em sua máquina local. Isso significa que você tem uma instância do YARN em execução na minha máquina local? Desde que eu instalei o Spark, ele veio com o ...
Executar SQL no cache Ignite de BinaryObjects
Estou criando um cache de BinaryObject a partir de um quadro de dados e, em seguida, desejo executar o SQL nesse cache de ignição. Aqui está o meu código ondebank é o quadro de dados que contém três campos (id, nome e idade): val ic = new ...
configure spark.streaming.kafka.maxRatePerPartition para createDirectStream
Preciso aumentar a taxa de entrada por partição para meu aplicativo e uso.set("spark.streaming.kafka.maxRatePerPartition",100) para a configuração. A duração do fluxo é de 10s, então espero que o processo5*100*10=5000 mensagens para este lote. No ...
Conjunto de dados Spark 2.0 vs DataFrame
começando com o spark 2.0.1 eu tenho algumas perguntas. Eu li muita documentação, mas até agora não consegui encontrar respostas suficientes: Qual é a diferença entredf.select("foo")df.select($"foo")eu entendi ...
SPARK: YARN mata contêineres por exceder os limites de memória
No momento, estamos enfrentando um problema em que as tarefas do Spark estão vendo um número de contêineres serem mortos por exceder os limites de memória ao executar no YARN. 16/11/18 17:58:52 WARN TaskSetManager: Lost task 53.0 in stage 49.0 ...
Qual é o significado dos parâmetros partitionColumn, lowerBound, upperBound, numPartitions?
Ao buscar dados do SQL Server por meio de uma conexão JDBC no Spark, descobri que posso definir alguns parâmetros de paralelização, comopartitionColumn, lowerBound, upperBoundenumPartitions. Eu passeidocumentação do ...
Spark / Scala: preencha nan com a última boa observação
Estou usando o spark 2.0.1 e quero preencher os valores nan com o último valor conhecido bom na coluna. A única referência para a faísca que eu pude encontrarSpark / Scala: preenchimento avançado com última ...
SparklyR removendo uma tabela do contexto do Spark
Deseja remover uma única tabela de dados do Contexto Spark ('sc'). Eu sei que uma única tabela em cache pode ser des-armazenada em cache, mas isso não é o mesmo que remover um objeto do sc - até onde eu sei. library(sparklyr) library(dplyr) ...
Como fazer junção externa esquerda no spark sql?
Eu estou tentando fazer uma junção externa esquerda no spark (1.6.2) e não funciona. Minha consulta sql é assim: sqlContext.sql("select t.type, t.uuid, p.uuid from symptom_type t LEFT JOIN plugin p ON t.uuid = p.uuid where t.created_year = 2016 ...