Resultados da pesquisa a pedido "pyspark"
Por que o OneHotEncoder do Spark descarta a última categoria por padrão?
Gostaria de entender o racional por trás do OneHotEncoder do Spark descartando a última categoria por padrão. Por exemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...
Erro de lançamento do PySpark O método __getnewargs __ ([]) não existe
Eu tenho um conjunto de arquivos. O caminho para os arquivos é salvo em um arquivo., Diga "all_files.txt". Usando o apache spark, preciso fazer uma operação em todos os arquivos e associar os resultados. Os passos que eu quero fazer são: Crie ...
Erro do PySpark: AttributeError: o objeto 'NoneType' não possui atributo '_jvm'
Eu tenho um conjunto de dados de carimbo de data / hora no formato de E eu escrevi um udf no pyspark para processar esse conjunto de dados e retornar como Mapa dos valores-chave. Mas estou recebendo a mensagem de erro abaixo. Conjunto de dados: ...
Spark RDD para python DataFrame
Estou tentando converter o Spark RDD em um DataFrame. Eu vi a documentação e o exemplo em que o esquema é passado parasqlContext.CreateDataFrame(rdd,schema) função. Mas eu tenho 38 colunas ou campos e isso aumentará ainda mais. Se eu ...
Spark carregar dados e adicionar nome do arquivo como coluna dataframe
Estou carregando alguns dados no Spark com uma função de wrapper: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...
Aplicar uma função a uma única coluna de um csv no Spark
Usando o Spark, estou lendo um csv e quero aplicar uma função a uma coluna no csv. Eu tenho algum código que funciona, mas é muito hacky. Qual é a maneira correta de fazer isso? Meu código SparkContext().addPyFile("myfile.py") spark = ...
Pyspark - Obtenha todos os parâmetros de modelos criados com ParamGridBuilder
Estou usando o PySpark 2.0 para uma competição do Kaggle. Eu gostaria de saber o comportamento de um modelo (RandomForest) dependendo de diferentes parâmetros.ParamGridBuilder() permite especificar valores diferentes para um único parâmetro e ...
Como o Spark em execução no YARN explica o uso de memória do Python?
Após ler a documentação, não entendo como o Spark em execução no YARN explica o consumo de memória do Python. Isso conta paraspark.executor.memory, spark.executor.memoryOverhead ou onde? Em particular, eu tenho um aplicativo PySpark ...
entrada (nula) na exceção da cadeia de comandos em saveAsTextFile () no Pyspark
Estou trabalhando no PySpark em um notebook Jupyter (Python 2.7) no Windows 7. Tenho um RDD do tipopyspark.rdd.PipelinedRDD chamadoidSums. Ao tentar executaridSums.saveAsTextFile("Output"), Recebo o seguinte erro: Py4JJavaError: An error ...
FPgrowth computing association em pyspark vs scala
Usando : http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html [http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html] Código Python: from pyspark.mllib.fpm import FPGrowth model = ...