Resultados da pesquisa a pedido "pyspark"

4 a resposta

Erro _corrupt_record ao ler um arquivo JSON no Spark

Eu tenho esse arquivo JSON { "a": 1, "b": 2 }que foi obtido com o método Python json.dump. Agora, quero ler esse arquivo em um DataFrame no Spark, usando o pyspark. Após a documentação, estou fazendo isso sc = SparkContext () sqlc = SQLContext ...

1 a resposta

pyspark: Converte DataFrame em RDD [string]

Eu gostaria de converterpyspark.sql.dataframe.DataFrame parapyspark.rdd.RDD[String] Eu converti um DataFramedf para RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDo novo RDDdata contémRow first = data.first() type(first) ## ...

1 a resposta

configurando variáveis de ambiente do código python para spark

Eu configurei as variáveis de ambiente no Mac OS para executarpyspark export SPARK_HOME=/Users/devesh/Downloads/spark-1.5.1-bin-hadoop2.6 export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH ...

3 a resposta

Lidando com vírgulas dentro de um campo em um arquivo csv usando o pyspark

Eu tenho um arquivo de dados csv contendo vírgulas dentro de um valor de coluna. Por exemplo, value_1,value_2,value_3 AAA_A,BBB,B,CCC_CAqui, os valores são "AAA_A", "BBB, B", "CCC_C". Mas, ao tentar dividir a linha por vírgula, ele fornece ...

2 a resposta

Como armazenar em cache um quadro de dados Spark e referenciá-lo em outro script

É possível armazenar em cache um quadro de dados e referenciá-lo (consulta) em outro script? ... Meu objetivo é o seguinte: No script 1, crie um quadro de dados (df)Execute o script 1 e o cache dfNo script 2, consultar dados em df

2 a resposta

Como excluir várias colunas no Spark dataframe em Python

Eu descobri que o PySpark tem um método chamadodrop mas parece que só pode eliminar uma coluna de cada vez. Alguma idéia de como soltar várias colunas ao mesmo tempo? df.drop(['col1','col2']) TypeError Traceback (most recent call ...

1 a resposta

Zeppelin: Scala Dataframe para python

Se eu tiver um parágrafo Scala com um DataFrame, posso compartilhá-lo e usá-lo com python. (Pelo que entendi, o pyspark usapy4j [https://www.py4j.org/advanced_topics.html#array]) Eu tentei isso: Parágrafo Scala: x.printSchema z.put("xtable", x ...

5 a resposta

Adicionar Jar ao pyspark independente

Estou lançando um programa pyspark: $ export SPARK_HOME= $ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip $ pythonE o código py: from pyspark import SparkContext, ...

1 a resposta

Como classificar imagens usando Spark e Caffe

Estou usando o Caffe para fazer a classificação de imagens. Posso usar o MAC OS X, Pyhton. No momento, sei como classificar uma lista de imagens usando o Caffe com o python Spark, mas se quiser torná-lo mais rápido, quero usar o ...

2 a resposta

Número de partições no RDD e desempenho no Spark

No Pyspark, posso criar um RDD a partir de uma lista e decidir quantas partições ter: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)Como o número de partições que eu decido particionar meu RDD influencia o desempenho? E como isso ...