Resultados da pesquisa a pedido "pyspark"

2 a resposta

Explodir no PySpark

Gostaria de transformar de um DataFrame que contém listas de palavras em um DataFrame com cada palavra em sua própria linha. Como explodir em uma coluna em um DataFrame? Aqui está um exemplo com algumas das minhas tentativas em que você ...

2 a resposta

obter valor do quadro de dados

Em Scala eu posso fazerget(#) ougetAs[Type](#) para obter valores de um quadro de dados. Como devo fazer issopyspark? Eu tenho duas colunas DataFrame:item(string) esalesNum(integers). Eu faço umgroupby emean para obter uma média desses números ...

2 a resposta

Spark equivalente a IF Then ELSE

Eu já vi essa pergunta aqui anteriormente e tirei lições disso. No entanto, não sei por que estou recebendo um erro quando acho que deve funcionar. Eu quero criar uma nova coluna no Spark existenteDataFrame por algumas regras. Aqui está o que eu ...

2 a resposta

Como obter linhas distintas no dataframe usando o pyspark?

Entendo que essa é apenas uma pergunta muito simples e provavelmente já foi respondida em algum lugar, mas como iniciante ainda não entendi e estou procurando sua iluminação, desde já obrigado. Eu tenho um quadro de dados ...

4 a resposta

Converter string pyspark em formato de data

Eu tenho um dataframe pyspark de data com uma coluna de string no formato deMM-dd-yyyy e estou tentando converter isso em uma coluna de data. Eu tentei: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() e recebo uma sequência de ...

1 a resposta

O pipeline do Spark ML causa java.lang.Exception: falha ao compilar… Código… cresce além de 64 KB

Usando o Spark 2.0, estou tentando executar um simples VectorAssembler em um pipeline pyspark ML, da seguinte maneira: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...

1 a resposta

KeyError: 'SPARK_HOME' no pyspark no Jupyter no Google-Cloud-DataProc

Ao tentar mostrar um SparkDF (Test), recebo um KeyError, como mostrado abaixo. Provavelmente algo der errado na função que eu usei antesTest.show(3). O KeyError diz: KeyError: 'SPARK_HOME'. Presumo que SPARK_HOME não esteja definido no mestre e ...

2 a resposta

Avaliação do PySpark

Estou tentando o código a seguir, que adiciona um número a cada linha em um RDD e retorna uma lista de RDDs usando o PySpark. from pyspark.context import SparkContext file = "file:///home/sree/code/scrap/sample.txt" sc = SparkContext('local', ...

3 a resposta

Como saber o modo de implantação do aplicativo PySpark?

Estou tentando corrigir um problema de falta de memória e quero saber se preciso alterar essas configurações no arquivo de configurações padrão (spark-defaults.conf) na pasta inicial do spark. Ou, se eu puder defini-los no código. Eu vi essa ...

1 a resposta

Como dividir Vector em colunas - usando PySpark

Contexto:eu tenho umDataFrame com 2 colunas: palavra e vetor. Onde o tipo de coluna de "vetor" éVectorUDT. Um exemplo: word | vector assert | [435,323,324,212...] ,E eu quero conseguir isso: word | v1 | v2 | v3 | v4 | v5 | v6 ...... assert | ...