Resultados da pesquisa a pedido "pyspark"

1 a resposta

Spark MLlib - trainImplicit warning

Eu continuo vendo esses avisos ao usartrainImplicit: WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB.E então o tamanho da tarefa começa a aumentar. eu tentei ...

3 a resposta

Pyspark py4j PickleException: “zero argumento esperado para a construção do ClassDict”

Esta pergunta é direcionada a pessoas familiarizadas com py4j - e pode ajudar a resolver um erro de decapagem. Estou tentando adicionar um método ao PythonMLLibAPI do pyspark que aceita um RDD de um nome de usuário, faz algum trabalho e retorna ...

8 a resposta

Obter CSV para o dataframe Spark

Estou usando python no Spark e gostaria de obter um csv em um dataframe. odocumentação [https://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources] estranhamente para o Spark SQL não fornece explicações para o CSV como ...

6 a resposta

renomeando colunas para agregados de quadros de dados pyspark

Estou analisando alguns dados com quadros de dados pyspark, suponha que eu tenha um quadro de dadosdf que estou agregando: df.groupBy("group")\ .agg({"money":"sum"})\ .show(100)Isso me dará: group SUM(money#2L) A 137461285853 B 172185566943 C ...

2 a resposta

Usando o envio de spark, qual é o comportamento da opção --total-executor-cores?

Estou executando um cluster de faísca em código C ++ envolto em python. Atualmente, estou testando diferentes configurações de opções de multiencadeamento (no nível Python ou no Spark). Estou usando o spark com binários independentes, em um ...

2 a resposta

Como executar vários trabalhos em um Sparkcontext a partir de threads separados no PySpark?

Entende-se na documentação do Spark sobreProgramação dentro de um aplicativo [http://spark.apache.org/docs/latest/job-scheduling.html]: Dentro de um determinado aplicativo Spark (instância SparkContext), vários trabalhos paralelos podem ser ...

6 a resposta

Remodelagem / rotação de dados no Spark RDD e / ou Spark DataFrames

Eu tenho alguns dados no seguinte formato (RDD ou Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...

6 a resposta

Calculando a duração subtraindo duas colunas de data e hora no formato de sequência

Eu tenho um Spark Dataframe no qual consiste em uma série de datas: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd ...

5 a resposta

Dataframe do PySpark do dicionário Python sem pandas

Estou tentando converter o seguinte Pythondict no PySpark DataFrame, mas não estou obtendo a saída esperada. dict_lst = {'letters': ['a', 'b', 'c'], 'numbers': [10, 20, 30]} df_dict = sc.parallelize([dict_lst]).toDF() # Result not as expected ...

10 a resposta

É possível obter as configurações atuais do contexto de faísca no PySpark?

Estou tentando encontrar o caminho paraspark.worker.dir para o atualsparkcontext. Se eu defini-lo explicitamente comoconfig param, Eu posso ler de voltaSparkConf, mas existe alguma maneira de acessar a lista completaconfig (incluindo todos ...