Resultados da pesquisa a pedido "pyspark"
Explodir no PySpark
Gostaria de transformar de um DataFrame que contém listas de palavras em um DataFrame com cada palavra em sua própria linha. Como explodir em uma coluna em um DataFrame? Aqui está um exemplo com algumas das minhas tentativas em que você ...
obter valor do quadro de dados
Em Scala eu posso fazerget(#) ougetAs[Type](#) para obter valores de um quadro de dados. Como devo fazer issopyspark? Eu tenho duas colunas DataFrame:item(string) esalesNum(integers). Eu faço umgroupby emean para obter uma média desses números ...
Spark equivalente a IF Then ELSE
Eu já vi essa pergunta aqui anteriormente e tirei lições disso. No entanto, não sei por que estou recebendo um erro quando acho que deve funcionar. Eu quero criar uma nova coluna no Spark existenteDataFrame por algumas regras. Aqui está o que eu ...
Como obter linhas distintas no dataframe usando o pyspark?
Entendo que essa é apenas uma pergunta muito simples e provavelmente já foi respondida em algum lugar, mas como iniciante ainda não entendi e estou procurando sua iluminação, desde já obrigado. Eu tenho um quadro de dados ...
Converter string pyspark em formato de data
Eu tenho um dataframe pyspark de data com uma coluna de string no formato deMM-dd-yyyy e estou tentando converter isso em uma coluna de data. Eu tentei: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() e recebo uma sequência de ...
O pipeline do Spark ML causa java.lang.Exception: falha ao compilar… Código… cresce além de 64 KB
Usando o Spark 2.0, estou tentando executar um simples VectorAssembler em um pipeline pyspark ML, da seguinte maneira: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...
KeyError: 'SPARK_HOME' no pyspark no Jupyter no Google-Cloud-DataProc
Ao tentar mostrar um SparkDF (Test), recebo um KeyError, como mostrado abaixo. Provavelmente algo der errado na função que eu usei antesTest.show(3). O KeyError diz: KeyError: 'SPARK_HOME'. Presumo que SPARK_HOME não esteja definido no mestre e ...
Avaliação do PySpark
Estou tentando o código a seguir, que adiciona um número a cada linha em um RDD e retorna uma lista de RDDs usando o PySpark. from pyspark.context import SparkContext file = "file:///home/sree/code/scrap/sample.txt" sc = SparkContext('local', ...
Como saber o modo de implantação do aplicativo PySpark?
Estou tentando corrigir um problema de falta de memória e quero saber se preciso alterar essas configurações no arquivo de configurações padrão (spark-defaults.conf) na pasta inicial do spark. Ou, se eu puder defini-los no código. Eu vi essa ...
Como dividir Vector em colunas - usando PySpark
Contexto:eu tenho umDataFrame com 2 colunas: palavra e vetor. Onde o tipo de coluna de "vetor" éVectorUDT. Um exemplo: word | vector assert | [435,323,324,212...] ,E eu quero conseguir isso: word | v1 | v2 | v3 | v4 | v5 | v6 ...... assert | ...