Resultados da pesquisa a pedido "apache-spark"

2 a resposta

PySpark 1.5 Como truncar carimbo de data e hora para o minuto mais próximo de segundos

Estou usando o PySpark. Eu tenho uma coluna ('dt') em um dataframe ('canon_evt') que é um carimbo de data / hora. Estou tentando remover segundos de um valor DateTime. É originalmente lido no parquet como uma String. Em seguida, tento convertê-lo ...

3 a resposta

Achatar Dataframe Spark aninhado

Existe uma maneira de nivelar um Spark Dataframe arbitrariamente aninhado? A maior parte do trabalho que estou vendo é escrita para um esquema específico e eu gostaria de poder achatar genericamente um Dataframe com diferentes tipos aninhados ...

1 a resposta

Quando os arquivos são "dividíveis"?

Quando estou usando o spark, às vezes encontro um arquivo enorme em umHIVE tabela, e às vezes estou tentando processar muitos arquivos menores em uma tabela HIVE. Entendo que, ao ajustar trabalhos de faísca, como ele funciona depende se ...

1 a resposta

Existe uma maneira de obter as primeiras 1000 linhas de um Dataframe Spark?

Estou usando orandomSplitpara obter uma pequena quantidade de um dataframe para uso em props dev e acabo pegando o primeiro df retornado por essa função. val df_subset = data.randomSplit(Array(0.00000001, 0.01), seed = 12345)(0)Se ...

2 a resposta

Entendendo a alocação de recursos para tarefas spark em mesos

Estou trabalhando em um projeto no Spark e recentemente mudei do Spark Standalone para o Mesos para gerenciamento de cluster. Agora me vejo confuso sobre como alocar recursos ao enviar um trabalho no novo sistema. No modo autônomo, eu estava ...

1 a resposta

No Apache Spark, posso repetir / aninhar facilmente um SparkContext.parallelize?

Estou tentando modelar um problema de genética que estamos tentando resolver, construindo-o em etapas. Posso executar com êxito os exemplos PiAverage a partir de Spark Examples. Esse exemplo "lança dardos" em um círculo (10 ^ 6 no nosso caso) e ...

3 a resposta

Spark: limiar e precisão do modelo de regressão

Eu tenho o modo de regressão logística, onde defino explicitamente o limite para 0,5. model.setThreshold(0.5)Treino o modelo e quero obter estatísticas básicas - precisão, recall etc. Isto é o que faço quando avalio o modelo: val metrics = new ...

4 a resposta

Como é o hive-site.xml, incluindo o $ SPARK_HOME?

Sou iniciante na seção, algo aconteceu (não consigo encontrar a tabela) quando inicio o trabalho de faísca e leio os dados da seção. Não defino hive-site.xml em $ SPARK_HOME / conf? envie o comando do trabalho de faísca está ...

2 a resposta

Como reformatar a saída do Spark Python

(u'142578', (u'The-North-side-9890', (u' 12457896', 45.0))) (u'124578', (u'The-West-side-9091', (u' 14578217', 0.0)))Isso eu recebi ao juntar os dois RDD com base nos IDs, isso é como(chave, (value_left, value_right))usando este Spark ...

2 a resposta

Spark adiciona nova coluna ao quadro de dados com valor da linha anterior

Gostaria de saber como posso obter o seguinte no Spark (Pyspark) Dataframe inicial: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Dataframe resultante: +--+---+-------+ |id|num|new_Col| ...