Resultados da pesquisa a pedido "pyspark"
Pyspark: mostra o histograma de uma coluna do quadro de dados
No quadro de dados do pandas, estou usando o seguinte código para plotar o histograma de uma coluna: my_df.hist(column = 'field_1')Existe algo que possa atingir o mesmo objetivo no quadro de dados do pyspark? (Estou no caderno Jupyter) Obrigado!
PySpark Como ler CSV no Dataframe e manipulá-lo
Eu sou muito novo no pyspark e estou tentando usá-lo para processar um grande conjunto de dados que é salvo como um arquivo csv. Gostaria de ler o arquivo CSV no spark dataframe, soltar algumas colunas e adicionar novas colunas. Como devo fazer ...
PySpark: StructField (…,…, False) sempre retorna `nullable = true` em vez de` nullable = false`
Eu sou novo no PySpark e estou enfrentando um problema estranho. Estou tentando definir alguma coluna como não anulável ao carregar um conjunto de dados CSV. Posso reproduzir meu caso com um conjunto de dados muito pequeno ...
Como acessar o elemento de uma coluna VectorUDT em um Spark DataFrame?
Eu tenho um quadro de dadosdf com umVectorUDT coluna denominadafeatures. Como obtenho um elemento da coluna, digamos o primeiro elemento? Eu tentei fazer o seguinte from pyspark.sql.functions import udf first_elem_udf = udf(lambda ...
O Apache Spark lê S3: não é possível capturar objetos thread.lock
Então, eu quero que meu Spark App leia algum texto do Amazon S3. Escrevi o seguinte script simples: import boto3 s3_client = boto3.client('s3') text_keys = ["key1.txt", "key2.txt"] data = sc.parallelize(text_keys).flatMap(lambda ...
Usando quadros gráficos com PyCharm
Passei quase 2 dias percorrendo a Internet e não consegui resolver esse problema. Estou tentando instalar opacote graphframes [https://spark-packages.org/package/graphframes/graphframes](Versão: 0.2.0-spark2.0-s_2.11) para executar com spark ...
Spark: desempenho da consulta PySpark + Cassandra
Eu configurei o Spark 2.0 e o Cassandra 3.0 em uma máquina local (8 núcleos, 16 GB de RAM) para fins de teste e editeispark-defaults.conf do seguinte modo: spark.python.worker.memory 1g spark.executor.cores 4 spark.executor.instances ...
Pyspark anexa variável de ambiente do executor
É possível acrescentar um valor ao PITONONA de um trabalhador em faísca? Sei que é possível ir para cada nó do trabalhador, configurar o arquivo spark-env.sh e fazê-lo, mas quero uma abordagem mais flexível Estou tentando usar o método ...
Contagem máxima de colunas do Spark Dataframe
Qual é a contagem máxima de colunas do Spark Dataframe? Tentei obtê-lo da documentação do quadro de dados, mas não consegui encontrá-lo.
Não é possível converter o tipo <class 'pyspark.ml.linalg.SparseVector'> em Vector
Dado meu objeto Row pyspark: >>> row Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})) >>> row.clicked 0 >>> row.features SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}) >>> type(row.features) <class ...