Resultados da pesquisa a pedido "pyspark"
Aplicando UDFs em GroupedData no PySpark (com exemplo de python em funcionamento)
Eu tenho esse código python que é executado localmente em um dataframe do pandas: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Gostaria de executar isso no PySpark, mas com problemas para lidar com ...
Operador de quadro de dados Pyspark LIKE
Qual é o equivalente no operador Pyspark para LIKE? Por exemplo, eu gostaria de fazer: SELECT * FROM table WHERE column LIKE "*somestring*";procurando algo fácil como este (mas isso não está ...
Lendo arquivos csv com campos entre aspas contendo vírgulas incorporadas
Estou lendo um arquivo csv no Pyspark da seguinte maneira: df_raw=spark.read.option("header","true").csv(csv_path)No entanto, o arquivo de dados citou campos com vírgulas incorporadas, que não devem ser tratados como vírgulas. Como posso lidar ...
Como fazer junção externa esquerda no spark sql?
Eu estou tentando fazer uma junção externa esquerda no spark (1.6.2) e não funciona. Minha consulta sql é assim: sqlContext.sql("select t.type, t.uuid, p.uuid from symptom_type t LEFT JOIN plugin p ON t.uuid = p.uuid where t.created_year = 2016 ...
Como salvar / inserir cada DStream em uma tabela permanente
Estou enfrentando um problema com o "Spark Streaming" sobre a inserção do Dstream de saída em umpermanente Tabela SQL. Gostaria de inserir todos os DStream de saída (provenientes de um único lote que desencadeia processos) em uma tabela ...
Como executar um script no PySpark
Estou tentando executar um script no ambiente pyspark, mas até agora não consegui. Como posso executar um script como python script.py, mas no pyspark? obrigado
Runnning Spark no cluster: o trabalho inicial não aceitou nenhum recurso
Eu tenho um servidor Ubuntu remoto emlinode.com [http://linode.com]com 4 núcleos e 8G de RAMEu tenho um cluster Spark-2 composto por 1 mestre e 1 escravo no meu servidor Ubuntu remoto.Iniciei o shell PySpark localmente no meu MacBook, conectado ...
Como executar operações matemáticas com duas colunas no dataframe usando o pyspark
Eu tenho dataframe com três colunas "x", "y" e "z" x y z bn 12452 221 mb 14521 330 pl 12563 160 lo 22516 142Eu preciso criar uma outra coluna que é derivada por esta fórmula (m = z / y+z)Portanto, os novos quadros de dados devem ter a seguinte ...
PySpark: calcula o máximo de linhas do subconjunto de colunas e adiciona a um quadro de dados existente
Gostaria de calcular o máximo de um subconjunto de colunas para cada linha e adicioná-lo como uma nova coluna para o existenteDataframe. Eu consegui fazer isso de uma maneira muito estranha: def add_colmax(df,subset_columns,colnm): ''' ...
Como selecionar e ordenar várias colunas em um Dataframe Pyspark após uma associação
Desejo selecionar várias colunas do quadro de dados existente (criado após as associações) e gostaria de ordenar os arquivos como minha estrutura de tabela de destino. Como pode ser feito ? A abordagem que usei está abaixo. Aqui eu sou capaz de ...