Resultados da pesquisa a pedido "pyspark"
Como fazer o oposto de explodir no PySpark?
Digamos que eu tenho umDataFrame com uma coluna para usuários e outra coluna para as palavras que eles escreveram: Row(user='Bob', word='hello') Row(user='Bob', word='world') Row(user='Mary', word='Have') Row(user='Mary', word='a') ...
Como dinamizar em várias colunas no Spark SQL?
Eu preciso dinamizar mais de uma coluna em um dataframe pyspark. Dataframe de amostra, >>> d ...
Como converter uma coluna com o tipo de string para o formulário int no quadro de dados pyspark?
Eu tenho o dataframe no pyspark. Algumas de suas colunas numéricas contêm 'nan'; portanto, quando estou lendo os dados e verificando o esquema do quadro de dados, essas colunas terão o tipo 'string'. Se você deseja alterar o valor de nano para ...
IllegalArgumentException com Spark collect () no Jupyter
Eu tenho uma configuração com o Jupyter 4.3.0, Python 3.6.3 (Anaconda) e PySpark 2.2.1. O exemplo a seguir falhará ao executar o Jupyter: sc = SparkContext.getOrCreate() rdd = sc.parallelize(['A','B','C']) rdd.collect()Abaixo está o ...
PySpark: Como preencher valores no dataframe para colunas específicas?
Eu tenho o seguinte exemplo DataFrame: a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 |E eu quero substituir valores nulos apenas nas 2 primeiras colunas - coluna "a" e "b": a | b | c | 1 | 2 | 4 | 0 | 0 | null| 0 | 3 | 4 |Aqui está o ...
Como exibir um DataFrame de streaming (como a mostra falha com o AnalysisException)?
Então, eu tenho alguns dados que estou transmitindo em um tópico Kafka, estou pegando esses dados e colocando-os em umDataFrame. Quero exibir os dados dentro do DataFrame: import os from kafka import KafkaProducer from pyspark.sql import ...
Problemas com a função Rodada Pyspark
Tendo problemas para obter a função round em pyspar, k para funcionar - eu tenho o bloco de código abaixo, onde estou tentando arredondar onew_bid coluna com 2 casas decimais e renomeie a coluna comobid depois - ...
Bibliotecas necessárias para usar o Spark do Python (PySpark)
Estou usando o PySpark do Django e me conecto a um nó mestre do spark usando o SparkSession para executar um trabalho no cluster. Minha pergunta é: preciso de uma instalação completa do spark na minha máquina local? Toda a documentação me ...
Como extrair um elemento de uma matriz no pyspark
Eu tenho um quadro de dados com o seguinte tipo col1|col2|col3|col4 xxxx|yyyy|zzzz|[1111],[2222]Quero que minha saída esteja seguindo o tipo col1|col2|col3|col4|col5 xxxx|yyyy|zzzz|1111|2222Meu col4 é uma matriz e quero convertê-lo em uma ...
Spark - Janela com recursão? - Propagar valores condicionalmente pelas linhas
Eu tenho o seguinte quadro de dados mostrando a receita das compras. +-------+--------+-------+ |user_id|visit_id|revenue| +-------+--------+-------+ | 1| 1| 0| | 1| 2| 0| | 1| 3| 0| | 1| 4| 100| | 1| 5| 0| | 1| 6| 0| | 1| 7| 200| | 1| 8| 0| | ...