Resultados da pesquisa a pedido "pyspark"

1 a resposta

Spark lendo pickle python3 como entrada

Meus dados estão disponíveis como conjuntos de arquivos pickled do Python 3. A maioria deles é serialização de PandasDataFrames. Eu gostaria de começar a usar o Spark porque preciso de mais memória e CPU que um computador pode ter. Além disso, ...

1 a resposta

Como o Spark em execução no YARN explica o uso de memória do Python?

Após ler a documentação, não entendo como o Spark em execução no YARN explica o consumo de memória do Python. Isso conta paraspark.executor.memory, spark.executor.memoryOverhead ou onde? Em particular, eu tenho um aplicativo PySpark ...

1 a resposta

Como hash PySpark DataFrame para obter um float retornado?

Digamos que eu possua spark frame de dados +--------+-----+ | letter|count| +--------+-----+ | a| 2| | b| 2| | c| 1| +--------+-----+Então eu queria encontrar maldade. Então eu fiz df = df.groupBy().mean('letter')que fornecem um quadro de ...

3 a resposta

Como fazer junção externa esquerda no spark sql?

Eu estou tentando fazer uma junção externa esquerda no spark (1.6.2) e não funciona. Minha consulta sql é assim: sqlContext.sql("select t.type, t.uuid, p.uuid from symptom_type t LEFT JOIN plugin p ON t.uuid = p.uuid where t.created_year = 2016 ...

1 a resposta

Anexar zeros a um valor no PySpark

Eu tenho um quadro de dadosdf : val1 val2 val3 271 70 151 213 1 379 213 3 90 213 6 288 20 55 165Eu quero transformar esse quadro de dados como: val1 val2 val3 271 70 0151 213 01 0379 213 03 0090 213 06 0288 020 55 0165Como posso fazer isso no ...

3 a resposta

Aplicando UDFs em GroupedData no PySpark (com exemplo de python em funcionamento)

Eu tenho esse código python que é executado localmente em um dataframe do pandas: df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name))Gostaria de executar isso no PySpark, mas com problemas para lidar com ...

5 a resposta

PySpark DataFrames - maneira de enumerar sem converter para Pandas?

Eu tenho um grandepyspark.sql.dataframe.DataFramechamado df. Eu preciso de alguma maneira de enumerar registros, portanto, ser capaz de acessar registros com determinado índice. (ou selecione um grupo de registros com intervalo de índices) Nos ...

2 a resposta

pyspark analisar arquivo de texto de largura fixa

Tentando analisar um arquivo de texto de largura fixa. meu arquivo de texto se parece com o seguinte e preciso de um ID de linha, data, uma string e um número inteiro: 00101292017you1234 00201302017 me5678Eu posso ler o arquivo de texto em um ...

3 a resposta

Interface do usuário do Spark mostrando 0 núcleos, mesmo ao definir núcleos no aplicativo

Estou tendo um problema estranho com a execução de um aplicativo fora do URL mestre do spark, em que a interface do usuário está relatando um "STATE" de "WAITING" indefinidamente, pois 0 núcleos estão aparecendo na tabela RUNNING APPLICATIONs, ...

1 a resposta

Como filtrar com base no valor do array no PySpark?

Meu esquema: |-- Canonical_URL: string (nullable = true) |-- Certifications: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- Certification_Authority: string (nullable = true) | | |-- End: string (nullable = true) | | ...