Resultados da pesquisa a pedido "pyspark"

1 a resposta

Por que o OneHotEncoder do Spark descarta a última categoria por padrão?

Gostaria de entender o racional por trás do OneHotEncoder do Spark descartando a última categoria por padrão. Por exemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

1 a resposta

Erro de lançamento do PySpark O método __getnewargs __ ([]) não existe

Eu tenho um conjunto de arquivos. O caminho para os arquivos é salvo em um arquivo., Diga "all_files.txt". Usando o apache spark, preciso fazer uma operação em todos os arquivos e associar os resultados. Os passos que eu quero fazer são: Crie ...

3 a resposta

Erro do PySpark: AttributeError: o objeto 'NoneType' não possui atributo '_jvm'

Eu tenho um conjunto de dados de carimbo de data / hora no formato de E eu escrevi um udf no pyspark para processar esse conjunto de dados e retornar como Mapa dos valores-chave. Mas estou recebendo a mensagem de erro abaixo. Conjunto de dados: ...

2 a resposta

Spark RDD para python DataFrame

Estou tentando converter o Spark RDD em um DataFrame. Eu vi a documentação e o exemplo em que o esquema é passado parasqlContext.CreateDataFrame(rdd,schema) função. Mas eu tenho 38 colunas ou campos e isso aumentará ainda mais. Se eu ...

1 a resposta

Spark carregar dados e adicionar nome do arquivo como coluna dataframe

Estou carregando alguns dados no Spark com uma função de wrapper: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...

1 a resposta

Aplicar uma função a uma única coluna de um csv no Spark

Usando o Spark, estou lendo um csv e quero aplicar uma função a uma coluna no csv. Eu tenho algum código que funciona, mas é muito hacky. Qual é a maneira correta de fazer isso? Meu código SparkContext().addPyFile("myfile.py") spark = ...

2 a resposta

Pyspark - Obtenha todos os parâmetros de modelos criados com ParamGridBuilder

Estou usando o PySpark 2.0 para uma competição do Kaggle. Eu gostaria de saber o comportamento de um modelo (RandomForest) dependendo de diferentes parâmetros.ParamGridBuilder() permite especificar valores diferentes para um único parâmetro e ...

1 a resposta

Como o Spark em execução no YARN explica o uso de memória do Python?

Após ler a documentação, não entendo como o Spark em execução no YARN explica o consumo de memória do Python. Isso conta paraspark.executor.memory, spark.executor.memoryOverhead ou onde? Em particular, eu tenho um aplicativo PySpark ...

3 a resposta

entrada (nula) na exceção da cadeia de comandos em saveAsTextFile () no Pyspark

Estou trabalhando no PySpark em um notebook Jupyter (Python 2.7) no Windows 7. Tenho um RDD do tipopyspark.rdd.PipelinedRDD chamadoidSums. Ao tentar executaridSums.saveAsTextFile("Output"), Recebo o seguinte erro: Py4JJavaError: An error ...

2 a resposta

FPgrowth computing association em pyspark vs scala

Usando : http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html [http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html] Código Python: from pyspark.mllib.fpm import FPGrowth model = ...