Resultados da pesquisa a pedido "pyspark"

4 a resposta

Pyspark: mostra o histograma de uma coluna do quadro de dados

No quadro de dados do pandas, estou usando o seguinte código para plotar o histograma de uma coluna: my_df.hist(column = 'field_1')Existe algo que possa atingir o mesmo objetivo no quadro de dados do pyspark? (Estou no caderno Jupyter) Obrigado!

1 a resposta

PySpark Como ler CSV no Dataframe e manipulá-lo

Eu sou muito novo no pyspark e estou tentando usá-lo para processar um grande conjunto de dados que é salvo como um arquivo csv. Gostaria de ler o arquivo CSV no spark dataframe, soltar algumas colunas e adicionar novas colunas. Como devo fazer ...

1 a resposta

PySpark: StructField (…,…, False) sempre retorna `nullable = true` em vez de` nullable = false`

Eu sou novo no PySpark e estou enfrentando um problema estranho. Estou tentando definir alguma coluna como não anulável ao carregar um conjunto de dados CSV. Posso reproduzir meu caso com um conjunto de dados muito pequeno ...

1 a resposta

Como acessar o elemento de uma coluna VectorUDT em um Spark DataFrame?

Eu tenho um quadro de dadosdf com umVectorUDT coluna denominadafeatures. Como obtenho um elemento da coluna, digamos o primeiro elemento? Eu tentei fazer o seguinte from pyspark.sql.functions import udf first_elem_udf = udf(lambda ...

2 a resposta

O Apache Spark lê S3: não é possível capturar objetos thread.lock

Então, eu quero que meu Spark App leia algum texto do Amazon S3. Escrevi o seguinte script simples: import boto3 s3_client = boto3.client('s3') text_keys = ["key1.txt", "key2.txt"] data = sc.parallelize(text_keys).flatMap(lambda ...

1 a resposta

Usando quadros gráficos com PyCharm

Passei quase 2 dias percorrendo a Internet e não consegui resolver esse problema. Estou tentando instalar opacote graphframes [https://spark-packages.org/package/graphframes/graphframes](Versão: 0.2.0-spark2.0-s_2.11) para executar com spark ...

1 a resposta

Spark: desempenho da consulta PySpark + Cassandra

Eu configurei o Spark 2.0 e o Cassandra 3.0 em uma máquina local (8 núcleos, 16 GB de RAM) para fins de teste e editeispark-defaults.conf do seguinte modo: spark.python.worker.memory 1g spark.executor.cores 4 spark.executor.instances ...

1 a resposta

Pyspark anexa variável de ambiente do executor

É possível acrescentar um valor ao PITONONA de um trabalhador em faísca? Sei que é possível ir para cada nó do trabalhador, configurar o arquivo spark-env.sh e fazê-lo, mas quero uma abordagem mais flexível Estou tentando usar o método ...

1 a resposta

Contagem máxima de colunas do Spark Dataframe

Qual é a contagem máxima de colunas do Spark Dataframe? Tentei obtê-lo da documentação do quadro de dados, mas não consegui encontrá-lo.

2 a resposta

Não é possível converter o tipo <class 'pyspark.ml.linalg.SparseVector'> em Vector

Dado meu objeto Row pyspark: >>> row Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})) >>> row.clicked 0 >>> row.features SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}) >>> type(row.features) <class ...