Resultados da pesquisa a pedido "pyspark"
Erro _corrupt_record ao ler um arquivo JSON no Spark
Eu tenho esse arquivo JSON { "a": 1, "b": 2 }que foi obtido com o método Python json.dump. Agora, quero ler esse arquivo em um DataFrame no Spark, usando o pyspark. Após a documentação, estou fazendo isso sc = SparkContext () sqlc = SQLContext ...
pyspark: Converte DataFrame em RDD [string]
Eu gostaria de converterpyspark.sql.dataframe.DataFrame parapyspark.rdd.RDD[String] Eu converti um DataFramedf para RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDo novo RDDdata contémRow first = data.first() type(first) ## ...
configurando variáveis de ambiente do código python para spark
Eu configurei as variáveis de ambiente no Mac OS para executarpyspark export SPARK_HOME=/Users/devesh/Downloads/spark-1.5.1-bin-hadoop2.6 export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH ...
Lidando com vírgulas dentro de um campo em um arquivo csv usando o pyspark
Eu tenho um arquivo de dados csv contendo vírgulas dentro de um valor de coluna. Por exemplo, value_1,value_2,value_3 AAA_A,BBB,B,CCC_CAqui, os valores são "AAA_A", "BBB, B", "CCC_C". Mas, ao tentar dividir a linha por vírgula, ele fornece ...
Como armazenar em cache um quadro de dados Spark e referenciá-lo em outro script
É possível armazenar em cache um quadro de dados e referenciá-lo (consulta) em outro script? ... Meu objetivo é o seguinte: No script 1, crie um quadro de dados (df)Execute o script 1 e o cache dfNo script 2, consultar dados em df
Como excluir várias colunas no Spark dataframe em Python
Eu descobri que o PySpark tem um método chamadodrop mas parece que só pode eliminar uma coluna de cada vez. Alguma idéia de como soltar várias colunas ao mesmo tempo? df.drop(['col1','col2']) TypeError Traceback (most recent call ...
Zeppelin: Scala Dataframe para python
Se eu tiver um parágrafo Scala com um DataFrame, posso compartilhá-lo e usá-lo com python. (Pelo que entendi, o pyspark usapy4j [https://www.py4j.org/advanced_topics.html#array]) Eu tentei isso: Parágrafo Scala: x.printSchema z.put("xtable", x ...
Adicionar Jar ao pyspark independente
Estou lançando um programa pyspark: $ export SPARK_HOME= $ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip $ pythonE o código py: from pyspark import SparkContext, ...
Como classificar imagens usando Spark e Caffe
Estou usando o Caffe para fazer a classificação de imagens. Posso usar o MAC OS X, Pyhton. No momento, sei como classificar uma lista de imagens usando o Caffe com o python Spark, mas se quiser torná-lo mais rápido, quero usar o ...
Número de partições no RDD e desempenho no Spark
No Pyspark, posso criar um RDD a partir de uma lista e decidir quantas partições ter: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)Como o número de partições que eu decido particionar meu RDD influencia o desempenho? E como isso ...