Resultados da pesquisa a pedido "pyspark"
Spark MLlib - trainImplicit warning
Eu continuo vendo esses avisos ao usartrainImplicit: WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB). The maximum recommended task size is 100 KB.E então o tamanho da tarefa começa a aumentar. eu tentei ...
Pyspark py4j PickleException: “zero argumento esperado para a construção do ClassDict”
Esta pergunta é direcionada a pessoas familiarizadas com py4j - e pode ajudar a resolver um erro de decapagem. Estou tentando adicionar um método ao PythonMLLibAPI do pyspark que aceita um RDD de um nome de usuário, faz algum trabalho e retorna ...
Obter CSV para o dataframe Spark
Estou usando python no Spark e gostaria de obter um csv em um dataframe. odocumentação [https://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources] estranhamente para o Spark SQL não fornece explicações para o CSV como ...
renomeando colunas para agregados de quadros de dados pyspark
Estou analisando alguns dados com quadros de dados pyspark, suponha que eu tenha um quadro de dadosdf que estou agregando: df.groupBy("group")\ .agg({"money":"sum"})\ .show(100)Isso me dará: group SUM(money#2L) A 137461285853 B 172185566943 C ...
Usando o envio de spark, qual é o comportamento da opção --total-executor-cores?
Estou executando um cluster de faísca em código C ++ envolto em python. Atualmente, estou testando diferentes configurações de opções de multiencadeamento (no nível Python ou no Spark). Estou usando o spark com binários independentes, em um ...
Como executar vários trabalhos em um Sparkcontext a partir de threads separados no PySpark?
Entende-se na documentação do Spark sobreProgramação dentro de um aplicativo [http://spark.apache.org/docs/latest/job-scheduling.html]: Dentro de um determinado aplicativo Spark (instância SparkContext), vários trabalhos paralelos podem ser ...
Remodelagem / rotação de dados no Spark RDD e / ou Spark DataFrames
Eu tenho alguns dados no seguinte formato (RDD ou Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...
Calculando a duração subtraindo duas colunas de data e hora no formato de sequência
Eu tenho um Spark Dataframe no qual consiste em uma série de datas: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd ...
Dataframe do PySpark do dicionário Python sem pandas
Estou tentando converter o seguinte Pythondict no PySpark DataFrame, mas não estou obtendo a saída esperada. dict_lst = {'letters': ['a', 'b', 'c'], 'numbers': [10, 20, 30]} df_dict = sc.parallelize([dict_lst]).toDF() # Result not as expected ...
É possível obter as configurações atuais do contexto de faísca no PySpark?
Estou tentando encontrar o caminho paraspark.worker.dir para o atualsparkcontext. Se eu defini-lo explicitamente comoconfig param, Eu posso ler de voltaSparkConf, mas existe alguma maneira de acessar a lista completaconfig (incluindo todos ...