Resultados da pesquisa a pedido "pyspark"

Gostaria de entender o racional por trás do OneHotEncoder do Spark descartando a última categoria por padrão. Por exemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

flatmap python apache-spark

1 a resposta

Erro de lançamento do PySpark O método getnewargs ([]) não existe

Eu tenho um conjunto de arquivos. O caminho para os arquivos é salvo em um arquivo., Diga "all_files.txt". Usando o apache spark, preciso fazer uma operação em todos os arquivos e associar os resultados. Os passos que eu quero fazer são: Crie ...

apache-spark-sql apache-spark pyspark-sql ipython

3 a resposta

Erro do PySpark: AttributeError: o objeto 'NoneType' não possui atributo '_jvm'

Eu tenho um conjunto de dados de carimbo de data / hora no formato de E eu escrevi um udf no pyspark para processar esse conjunto de dados e retornar como Mapa dos valores-chave. Mas estou recebendo a mensagem de erro abaixo. Conjunto de dados: ...

spark-dataframe apache-spark python

2 a resposta

Spark RDD para python DataFrame

Estou tentando converter o Spark RDD em um DataFrame. Eu vi a documentação e o exemplo em que o esquema é passado parasqlContext.CreateDataFrame(rdd,schema) função. Mas eu tenho 38 colunas ou campos e isso aumentará ainda mais. Se eu ...

apache-spark apache-spark-sql

1 a resposta

Spark carregar dados e adicionar nome do arquivo como coluna dataframe

Estou carregando alguns dados no Spark com uma função de wrapper: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...

spark-dataframe apache-spark

1 a resposta

Aplicar uma função a uma única coluna de um csv no Spark

Usando o Spark, estou lendo um csv e quero aplicar uma função a uma coluna no csv. Eu tenho algum código que funciona, mas é muito hacky. Qual é a maneira correta de fazer isso? Meu código SparkContext().addPyFile("myfile.py") spark = ...

hyperparameters python machine-learning apache-spark-ml

2 a resposta

Pyspark - Obtenha todos os parâmetros de modelos criados com ParamGridBuilder

Estou usando o PySpark 2.0 para uma competição do Kaggle. Eu gostaria de saber o comportamento de um modelo (RandomForest) dependendo de diferentes parâmetros.ParamGridBuilder() permite especificar valores diferentes para um único parâmetro e ...

hadoop python yarn apache-spark

1 a resposta

Como o Spark em execução no YARN explica o uso de memória do Python?

Após ler a documentação, não entendo como o Spark em execução no YARN explica o consumo de memória do Python. Isso conta paraspark.executor.memory, spark.executor.memoryOverhead ou onde? Em particular, eu tenho um aplicativo PySpark ...

jupyter-notebook apache-spark

3 a resposta

entrada (nula) na exceção da cadeia de comandos em saveAsTextFile () no Pyspark

Estou trabalhando no PySpark em um notebook Jupyter (Python 2.7) no Windows 7. Tenho um RDD do tipopyspark.rdd.PipelinedRDD chamadoidSums. Ao tentar executaridSums.saveAsTextFile("Output"), Recebo o seguinte erro: Py4JJavaError: An error ...

scala apache-spark apache-spark-sql apache-spark-mllib

2 a resposta

FPgrowth computing association em pyspark vs scala

Usando : http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html [http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html] Código Python: from pyspark.mllib.fpm import FPGrowth model = ...

Página 9 do 46

7 8910 11

Resultados da pesquisa a pedido "pyspark"

Por que o OneHotEncoder do Spark descarta a última categoria por padrão?

Erro de lançamento do PySpark O método getnewargs ([]) não existe

Erro do PySpark: AttributeError: o objeto 'NoneType' não possui atributo '_jvm'

Tags populares

Spark RDD para python DataFrame

Spark carregar dados e adicionar nome do arquivo como coluna dataframe

Aplicar uma função a uma única coluna de um csv no Spark

Pyspark - Obtenha todos os parâmetros de modelos criados com ParamGridBuilder

Como o Spark em execução no YARN explica o uso de memória do Python?

entrada (nula) na exceção da cadeia de comandos em saveAsTextFile () no Pyspark

FPgrowth computing association em pyspark vs scala

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "pyspark"

Tags populares