Resultados da pesquisa a pedido "pyspark"
Pyspark: passe várias colunas em UDF
Estou escrevendo uma Função Definida pelo Usuário que pega todas as colunas, exceto a primeira em um quadro de dados e soma (ou qualquer outra operação). Agora, o quadro de dados às vezes pode ter 3 colunas ou 4 colunas ou mais. Isso varia. Eu ...
Transmitir uma classe definida pelo usuário no Spark
Estou tentando transmitir uma variável definida pelo usuário em um aplicativo PySpark, mas sempre tenho o seguinte erro: File "/usr/local/spark-2.1.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/worker.py", line 174, in main process() ...
Grupo Pyspark Dataframe por filtragem
Eu tenho um quadro de dados como abaixo cust_id req req_met ------- --- ------- 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1Eu tenho que olhar para os clientes, ver quantos requisitos eles têm e ver se eles cumpriram ...
O cache ordenado do Spark DataFrame cria trabalho indesejado
Desejo converter um RDD em um DataFrame e quero armazenar em cache os resultados do RDD: from pyspark.sql import * from pyspark.sql.types import * import pyspark.sql.functions as fn schema = StructType([StructField('t', ...
Dividir o conteúdo da coluna String no PySpark Dataframe
Eu tenho um quadro de dados pyspark que possui uma coluna contendo seqüências de caracteres. Eu quero dividir esta coluna em palavras Código: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', ...
pyspark: Criar coluna MapType a partir de colunas existentes
Preciso criar uma nova coluna do Spark DF MapType com base nas colunas existentes em que o nome da coluna é a chave e o valor é o valor. Como exemplo - eu tenho esse DF: rdd = sc.parallelize([('123k', 1.3, 6.3, 7.6), ('d23d', 1.5, 2.0, 2.2), ...
Posso ler vários arquivos em um Spark Dataframe do S3, passando por arquivos inexistentes?
Gostaria de ler vários arquivos de parquet em um dataframe do S3. Atualmente, estou usando o seguinte método para fazer isso: files = ['s3a://dev/2017/01/03/data.parquet', 's3a://dev/2017/01/02/data.parquet'] df = ...
Apache Spark com Python: erro
Novo no Spark. Baixei tudo bem, mas quando executo o pyspark, recebo os seguintes erros: Type "help", "copyright", "credits" or "license" for more information. Using Spark's default log4j profile: ...
Como agregar janela de tempo de rolagem com grupos no Spark
Tenho alguns dados que quero agrupar por uma determinada coluna e agregar uma série de campos com base em uma janela de tempo de rolagem do grupo. Aqui estão alguns dados de exemplo: df = spark.createDataFrame([Row(date='2016-01-01', ...
No Pyspark HiveContext, o que é equivalente a SQL OFFSET?
Ou uma pergunta mais específica seria como processar grandes quantidades de dados que não cabem na memória de uma só vez? Com OFFSET, eu estava tentando executar o hiveContext.sql ("selecione ... limite 10 de deslocamento 10") enquanto ...