Resultados da pesquisa a pedido "apache-spark-sql"
Pyspark DataFrame UDF na coluna de texto
Estou tentando fazer algum texto de PNL limpar algumas colunas Unicode em um PySpark DataFrame. Eu tentei no Spark 1.3, 1.5 e 1.6 e parece que não consigo fazer as coisas funcionarem pela minha vida. Eu também tentei usar o Python 2.7 e o Python ...
Várias operações agregadas na mesma coluna de um dataframe spark
Eu tenho três matrizes do tipo string que contêm as seguintes informações: groupBy array: contendo os nomes das colunas pelas quais quero agrupar meus dados.matriz agregada: contendo nomes de colunas que eu quero agregar.matriz de operações: ...
Função Strip ou Regex no Spark 1.3 Dataframe
Eu tenho algum código do PySpark 1.5 que infelizmente tenho que portar para o Spark 1.3. Eu tenho uma coluna com elementos que são alfanuméricos, mas quero apenas os dígitos. Um exemplo dos elementos em 'old_col' de 'df' são: '125 Bytes'No Spark ...
Como criar um conjunto de dados da classe personalizada Person?
Eu estava tentando criar umDataset em Java, então escrevo o seguinte código: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset = sqlContext.createDataset(list, ...
Spark: adicione coluna ao dataframe condicionalmente
Estou tentando pegar meus dados de entrada: A B C -------------- 4 blah 2 2 3 56 foo 3E adicione uma coluna ao final com base em se B está vazio ou não: A B C D -------------------- 4 blah 2 1 2 3 0 56 foo 3 1Eu posso fazer isso facilmente ...
Função Apache Spark Window com coluna aninhada
Não tenho certeza se isso é um bug (ou apenas sintaxe incorreta). Eu procurei e não vi isso mencionado em outro lugar, então estou perguntando aqui antes de registrar um relatório de bug. Estou tentando usar uma função de janela particionada em ...
Estouro de pilha ao processar várias colunas com um UDF
eu tenho umDataFrame com muitas colunas destr tipo e quero aplicar uma função a todas essas colunas, sem renomear seus nomes ou adicionar mais colunas, tentei usar umfor-in execução de loopwithColumn (veja o exemplo abaixo), mas normalmente ...
função windowing first_value no pyspark
Estou usando o pyspark 1.5, obtendo meus dados das tabelas do Hive e tentando usar as funções de janelas. De acordo comesta [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] existe uma função analítica ...
Interface do usuário do Spark mostrando 0 núcleos, mesmo ao definir núcleos no aplicativo
Estou tendo um problema estranho com a execução de um aplicativo fora do URL mestre do spark, em que a interface do usuário está relatando um "STATE" de "WAITING" indefinidamente, pois 0 núcleos estão aparecendo na tabela RUNNING APPLICATIONs, ...
Como criar um transformador personalizado a partir de um UDF?
Eu estava tentando criar e salvar umPipeline [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.Pipeline] com estágios personalizados. Preciso adicionar umcolumn para o meuDataFrame usando umUDF. Portanto, eu queria ...