Resultados da pesquisa a pedido "pyspark"

3 a resposta

Aplicando UDFs em GroupedData no PySpark (com exemplo de python em funcionamento)

Eu tenho esse código python que é executado localmente em um dataframe do pandas: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Gostaria de executar isso no PySpark, mas com problemas para lidar com ...

7 a resposta

Operador de quadro de dados Pyspark LIKE

Qual é o equivalente no operador Pyspark para LIKE? Por exemplo, eu gostaria de fazer: SELECT * FROM table WHERE column LIKE "*somestring*";procurando algo fácil como este (mas isso não está ...

3 a resposta

Lendo arquivos csv com campos entre aspas contendo vírgulas incorporadas

Estou lendo um arquivo csv no Pyspark da seguinte maneira: df_raw=spark.read.option("header","true").csv(csv_path)No entanto, o arquivo de dados citou campos com vírgulas incorporadas, que não devem ser tratados como vírgulas. Como posso lidar ...

3 a resposta

Como fazer junção externa esquerda no spark sql?

Eu estou tentando fazer uma junção externa esquerda no spark (1.6.2) e não funciona. Minha consulta sql é assim: sqlContext.sql("select t.type, t.uuid, p.uuid from symptom_type t LEFT JOIN plugin p ON t.uuid = p.uuid where t.created_year = 2016 ...

2 a resposta

Como salvar / inserir cada DStream em uma tabela permanente

Estou enfrentando um problema com o "Spark Streaming" sobre a inserção do Dstream de saída em umpermanente Tabela SQL. Gostaria de inserir todos os DStream de saída (provenientes de um único lote que desencadeia processos) em uma tabela ...

3 a resposta

Como executar um script no PySpark

Estou tentando executar um script no ambiente pyspark, mas até agora não consegui. Como posso executar um script como python script.py, mas no pyspark? obrigado

1 a resposta

Runnning Spark no cluster: o trabalho inicial não aceitou nenhum recurso

Eu tenho um servidor Ubuntu remoto emlinode.com [http://linode.com]com 4 núcleos e 8G de RAMEu tenho um cluster Spark-2 composto por 1 mestre e 1 escravo no meu servidor Ubuntu remoto.Iniciei o shell PySpark localmente no meu MacBook, conectado ...

1 a resposta

Como executar operações matemáticas com duas colunas no dataframe usando o pyspark

Eu tenho dataframe com três colunas "x", "y" e "z" x y z bn 12452 221 mb 14521 330 pl 12563 160 lo 22516 142Eu preciso criar uma outra coluna que é derivada por esta fórmula (m = z / y+z)Portanto, os novos quadros de dados devem ter a seguinte ...

1 a resposta

PySpark: calcula o máximo de linhas do subconjunto de colunas e adiciona a um quadro de dados existente

Gostaria de calcular o máximo de um subconjunto de colunas para cada linha e adicioná-lo como uma nova coluna para o existenteDataframe. Eu consegui fazer isso de uma maneira muito estranha: def add_colmax(df,subset_columns,colnm): ''' ...

1 a resposta

Como selecionar e ordenar várias colunas em um Dataframe Pyspark após uma associação

Desejo selecionar várias colunas do quadro de dados existente (criado após as associações) e gostaria de ordenar os arquivos como minha estrutura de tabela de destino. Como pode ser feito ? A abordagem que usei está abaixo. Aqui eu sou capaz de ...