Resultados da pesquisa a pedido "pyspark"

1 a resposta

Estouro de pilha ao processar várias colunas com um UDF

eu tenho umDataFrame com muitas colunas destr tipo e quero aplicar uma função a todas essas colunas, sem renomear seus nomes ou adicionar mais colunas, tentei usar umfor-in execução de loopwithColumn (veja o exemplo abaixo), mas normalmente ...

1 a resposta

pyspark e reduzirByKey: como fazer uma soma simples

Estou tentando algum código no Spark (pyspark) para uma atribuição. Na primeira vez que uso esse ambiente, com certeza sinto falta de algo… Eu tenho um conjunto de dados simples chamado c_views. Se eu correrc_views.collect() eu recebo […] ...

1 a resposta

função windowing first_value no pyspark

Estou usando o pyspark 1.5, obtendo meus dados das tabelas do Hive e tentando usar as funções de janelas. De acordo comesta [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] existe uma função analítica ...

3 a resposta

Interface do usuário do Spark mostrando 0 núcleos, mesmo ao definir núcleos no aplicativo

Estou tendo um problema estranho com a execução de um aplicativo fora do URL mestre do spark, em que a interface do usuário está relatando um "STATE" de "WAITING" indefinidamente, pois 0 núcleos estão aparecendo na tabela RUNNING APPLICATIONs, ...

2 a resposta

Encontre a linha máxima por grupo no Spark DataFrame

Estou tentando usar quadros de dados do Spark em vez de RDDs, pois eles parecem ser mais de alto nível que os RDDs e tendem a produzir código mais legível. Em um cluster do Google Dataproc de 14 nós, tenho cerca de 6 milhões de nomes que são ...

2 a resposta

spark.ml StringIndexer lança 'rótulo invisível' em fit ()

Estou preparando um brinquedospark.ml exemplo.Spark version 1.6.0, correndo em cima deOracle JDK version 1.8.0_65, pyspark, notebook ipython. Primeiro, dificilmente tem algo a ver comSpark, ML, StringIndexer: manipulação de etiquetas ...

6 a resposta

Como converter dados do Spark Streaming em Spark DataFrame

Até agora, o Spark não criou o DataFrame para transmitir dados, mas quando estou detectando anomalias, é mais conveniente e rápido usar o DataFrame para análise de dados. Eu fiz essa parte, mas quando tento fazer a detecção de anomalias em tempo ...

1 a resposta

Como passar um valor constante para o Python UDF?

Eu estava pensando se era possível criar umUDF que recebe dois argumentos porColumn e outra variável (Object,Dictionary, ou qualquer outro tipo), faça algumas operações e retorne o resultado. Na verdade, tentei fazer isso, mas tive uma exceção. ...

1 a resposta

Apache Spark - Atribua o resultado do UDF a várias colunas do quadro de dados

Estou usando o pyspark, carregando um arquivo csv grande em um dataframe com spark-csv e, como etapa de pré-processamento, preciso aplicar uma variedade de operações aos dados disponíveis em uma das colunas (que contém uma string json) . Isso ...

1 a resposta

carregar bibliotecas externas dentro do código pyspark

Eu tenho um cluster de faíscas que uso no modo local. Eu quero ler um csv com a biblioteca externa databricks spark.csv. Inicio meu aplicativo da seguinte maneira: import os import sys os.environ["SPARK_HOME"] ...