Resultados da pesquisa a pedido "pyspark"
Estouro de pilha ao processar várias colunas com um UDF
eu tenho umDataFrame com muitas colunas destr tipo e quero aplicar uma função a todas essas colunas, sem renomear seus nomes ou adicionar mais colunas, tentei usar umfor-in execução de loopwithColumn (veja o exemplo abaixo), mas normalmente ...
pyspark e reduzirByKey: como fazer uma soma simples
Estou tentando algum código no Spark (pyspark) para uma atribuição. Na primeira vez que uso esse ambiente, com certeza sinto falta de algo… Eu tenho um conjunto de dados simples chamado c_views. Se eu correrc_views.collect() eu recebo […] ...
função windowing first_value no pyspark
Estou usando o pyspark 1.5, obtendo meus dados das tabelas do Hive e tentando usar as funções de janelas. De acordo comesta [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] existe uma função analítica ...
Interface do usuário do Spark mostrando 0 núcleos, mesmo ao definir núcleos no aplicativo
Estou tendo um problema estranho com a execução de um aplicativo fora do URL mestre do spark, em que a interface do usuário está relatando um "STATE" de "WAITING" indefinidamente, pois 0 núcleos estão aparecendo na tabela RUNNING APPLICATIONs, ...
Encontre a linha máxima por grupo no Spark DataFrame
Estou tentando usar quadros de dados do Spark em vez de RDDs, pois eles parecem ser mais de alto nível que os RDDs e tendem a produzir código mais legível. Em um cluster do Google Dataproc de 14 nós, tenho cerca de 6 milhões de nomes que são ...
spark.ml StringIndexer lança 'rótulo invisível' em fit ()
Estou preparando um brinquedospark.ml exemplo.Spark version 1.6.0, correndo em cima deOracle JDK version 1.8.0_65, pyspark, notebook ipython. Primeiro, dificilmente tem algo a ver comSpark, ML, StringIndexer: manipulação de etiquetas ...
Como converter dados do Spark Streaming em Spark DataFrame
Até agora, o Spark não criou o DataFrame para transmitir dados, mas quando estou detectando anomalias, é mais conveniente e rápido usar o DataFrame para análise de dados. Eu fiz essa parte, mas quando tento fazer a detecção de anomalias em tempo ...
Como passar um valor constante para o Python UDF?
Eu estava pensando se era possível criar umUDF que recebe dois argumentos porColumn e outra variável (Object,Dictionary, ou qualquer outro tipo), faça algumas operações e retorne o resultado. Na verdade, tentei fazer isso, mas tive uma exceção. ...
Apache Spark - Atribua o resultado do UDF a várias colunas do quadro de dados
Estou usando o pyspark, carregando um arquivo csv grande em um dataframe com spark-csv e, como etapa de pré-processamento, preciso aplicar uma variedade de operações aos dados disponíveis em uma das colunas (que contém uma string json) . Isso ...
carregar bibliotecas externas dentro do código pyspark
Eu tenho um cluster de faíscas que uso no modo local. Eu quero ler um csv com a biblioteca externa databricks spark.csv. Inicio meu aplicativo da seguinte maneira: import os import sys os.environ["SPARK_HOME"] ...