Resultados da pesquisa a pedido "apache-spark-sql"

3 a resposta

Pyspark DataFrame UDF na coluna de texto

Estou tentando fazer algum texto de PNL limpar algumas colunas Unicode em um PySpark DataFrame. Eu tentei no Spark 1.3, 1.5 e 1.6 e parece que não consigo fazer as coisas funcionarem pela minha vida. Eu também tentei usar o Python 2.7 e o Python ...

2 a resposta

Várias operações agregadas na mesma coluna de um dataframe spark

Eu tenho três matrizes do tipo string que contêm as seguintes informações: groupBy array: contendo os nomes das colunas pelas quais quero agrupar meus dados.matriz agregada: contendo nomes de colunas que eu quero agregar.matriz de operações: ...

1 a resposta

Função Strip ou Regex no Spark 1.3 Dataframe

Eu tenho algum código do PySpark 1.5 que infelizmente tenho que portar para o Spark 1.3. Eu tenho uma coluna com elementos que são alfanuméricos, mas quero apenas os dígitos. Um exemplo dos elementos em 'old_col' de 'df' são: '125 Bytes'No Spark ...

3 a resposta

Como criar um conjunto de dados da classe personalizada Person?

Eu estava tentando criar umDataset em Java, então escrevo o seguinte código: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset = sqlContext.createDataset(list, ...

3 a resposta

Spark: adicione coluna ao dataframe condicionalmente

Estou tentando pegar meus dados de entrada: A B C -------------- 4 blah 2 2 3 56 foo 3E adicione uma coluna ao final com base em se B está vazio ou não: A B C D -------------------- 4 blah 2 1 2 3 0 56 foo 3 1Eu posso fazer isso facilmente ...

1 a resposta

Função Apache Spark Window com coluna aninhada

Não tenho certeza se isso é um bug (ou apenas sintaxe incorreta). Eu procurei e não vi isso mencionado em outro lugar, então estou perguntando aqui antes de registrar um relatório de bug. Estou tentando usar uma função de janela particionada em ...

1 a resposta

Estouro de pilha ao processar várias colunas com um UDF

eu tenho umDataFrame com muitas colunas destr tipo e quero aplicar uma função a todas essas colunas, sem renomear seus nomes ou adicionar mais colunas, tentei usar umfor-in execução de loopwithColumn (veja o exemplo abaixo), mas normalmente ...

1 a resposta

função windowing first_value no pyspark

Estou usando o pyspark 1.5, obtendo meus dados das tabelas do Hive e tentando usar as funções de janelas. De acordo comesta [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] existe uma função analítica ...

3 a resposta

Interface do usuário do Spark mostrando 0 núcleos, mesmo ao definir núcleos no aplicativo

Estou tendo um problema estranho com a execução de um aplicativo fora do URL mestre do spark, em que a interface do usuário está relatando um "STATE" de "WAITING" indefinidamente, pois 0 núcleos estão aparecendo na tabela RUNNING APPLICATIONs, ...

3 a resposta

Como criar um transformador personalizado a partir de um UDF?

Eu estava tentando criar e salvar umPipeline [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.Pipeline] com estágios personalizados. Preciso adicionar umcolumn para o meuDataFrame usando umUDF. Portanto, eu queria ...