Resultados da pesquisa a pedido "apache-spark"
Como alterar a memória por nó para o trabalhador apache spark
Estou configurando um cluster Apache Spark. Quando executo o cluster com 1 mestre e 3 escravos, vejo isso na página do monitor mestre: Memory 2.0 GB (512.0 MB Used) 2.0 GB (512.0 MB Used) 6.0 GB (512.0 MB Used)Quero aumentar a memória usada ...
Executando o PySpark e o IDE como o Spyder?
Eu poderia rodar o PySpark a partir da linha do terminal e tudo funciona bem. ~/spark-1.0.0-bin-hadoop1/bin$ ./pysparkBem-vindo ao ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 1.0.0 /_/Usando o Python ...
Como criar um Spark UDF em Java / Kotlin que retorna um tipo complexo?
Estou tentando escrever um UDF que retorna um tipo complexo: private val toPrice = UDF1<String, Map<String, String>> { s -> val elements = s.split(" ") mapOf("value" to elements[0], "currency" to elements[1]) } val type = ...
spark - problema de espaço na pilha java - ExecutorLostFailure - container encerrado com status 143
Estou lendo a string com mais de 100k bytes e dividindo as colunas com base na largura. Eu tenho quase 16K colunas que eu divido acima da string com base na largura. mas enquanto escrevia em parquet, estou usando o código ...
Como faço para converter arquivo csv para rdd
Eu sou novo em despertar. Quero executar algumas operações em dados específicos em um registro CSV. Estou tentando ler um arquivo CSV e convertê-lo em RDD. Minhas operações adicionais são baseadas no cabeçalho fornecido no arquivo CSV. (Dos ...
Quais são as diferenças entre fatias e partições de RDDs?
Estou usando a API Python do Spark e executando o Spark 0.8. Estou armazenando um grande RDD de vetores de ponto flutuante e preciso executar cálculos de um vetor em todo o conjunto. Existe alguma diferença entre fatias e partições em um ...
como converter um carimbo de data / hora em string (sem alterar o fuso horário)?
Tenho algumas vezes unix que converto em timestamps emsparklyr e por alguns motivos, também preciso convertê-los em strings. Infelizmente, parece que durante a conversão em stringhive converte para EST (minha localidade). df_new <- ...
A função de mapa do RDD não está sendo chamada no Scala Spark
Quando eu chamo a função de mapa de um RDD não está sendo aplicada. Funciona como esperado para uma lista scala.collection.immutable.List, mas não para um RDD. Aqui está um código para ilustrar: val list = List ("a" , "d" , "c" , "d") list.map(l ...
Como ler arquivos gz no Spark usando wholeTextFiles
Eu tenho uma pasta que contém muitos arquivos .gz pequenos (arquivos de texto csv compactados). Preciso lê-los no meu trabalho do Spark, mas o processo é necessário, com base nas informações contidas no nome do arquivo. Portanto, eu não ...
Como implementar o ouvinte / rastreador de tarefas personalizado no Spark?
Eu tenho uma classe como abaixo, e quando executo isso na linha de comando, quero ver o status do progresso. algo como, 10% completed... 30% completed... 100% completed...Job done!Estou usando o spark 1.0 no fio e usando a API Java. public ...