Resultados da pesquisa a pedido "apache-spark"
PySpark 1.5 Como truncar carimbo de data e hora para o minuto mais próximo de segundos
Estou usando o PySpark. Eu tenho uma coluna ('dt') em um dataframe ('canon_evt') que é um carimbo de data / hora. Estou tentando remover segundos de um valor DateTime. É originalmente lido no parquet como uma String. Em seguida, tento convertê-lo ...
Achatar Dataframe Spark aninhado
Existe uma maneira de nivelar um Spark Dataframe arbitrariamente aninhado? A maior parte do trabalho que estou vendo é escrita para um esquema específico e eu gostaria de poder achatar genericamente um Dataframe com diferentes tipos aninhados ...
Quando os arquivos são "dividíveis"?
Quando estou usando o spark, às vezes encontro um arquivo enorme em umHIVE tabela, e às vezes estou tentando processar muitos arquivos menores em uma tabela HIVE. Entendo que, ao ajustar trabalhos de faísca, como ele funciona depende se ...
Existe uma maneira de obter as primeiras 1000 linhas de um Dataframe Spark?
Estou usando orandomSplitpara obter uma pequena quantidade de um dataframe para uso em props dev e acabo pegando o primeiro df retornado por essa função. val df_subset = data.randomSplit(Array(0.00000001, 0.01), seed = 12345)(0)Se ...
Entendendo a alocação de recursos para tarefas spark em mesos
Estou trabalhando em um projeto no Spark e recentemente mudei do Spark Standalone para o Mesos para gerenciamento de cluster. Agora me vejo confuso sobre como alocar recursos ao enviar um trabalho no novo sistema. No modo autônomo, eu estava ...
No Apache Spark, posso repetir / aninhar facilmente um SparkContext.parallelize?
Estou tentando modelar um problema de genética que estamos tentando resolver, construindo-o em etapas. Posso executar com êxito os exemplos PiAverage a partir de Spark Examples. Esse exemplo "lança dardos" em um círculo (10 ^ 6 no nosso caso) e ...
Spark: limiar e precisão do modelo de regressão
Eu tenho o modo de regressão logística, onde defino explicitamente o limite para 0,5. model.setThreshold(0.5)Treino o modelo e quero obter estatísticas básicas - precisão, recall etc. Isto é o que faço quando avalio o modelo: val metrics = new ...
Como é o hive-site.xml, incluindo o $ SPARK_HOME?
Sou iniciante na seção, algo aconteceu (não consigo encontrar a tabela) quando inicio o trabalho de faísca e leio os dados da seção. Não defino hive-site.xml em $ SPARK_HOME / conf? envie o comando do trabalho de faísca está ...
Como reformatar a saída do Spark Python
(u'142578', (u'The-North-side-9890', (u' 12457896', 45.0))) (u'124578', (u'The-West-side-9091', (u' 14578217', 0.0)))Isso eu recebi ao juntar os dois RDD com base nos IDs, isso é como(chave, (value_left, value_right))usando este Spark ...
Spark adiciona nova coluna ao quadro de dados com valor da linha anterior
Gostaria de saber como posso obter o seguinte no Spark (Pyspark) Dataframe inicial: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Dataframe resultante: +--+---+-------+ |id|num|new_Col| ...