Resultados da pesquisa a pedido "apache-spark"

3 a resposta

Como gravar o RDD resultante em um arquivo CSV no Spark python

Eu tenho um RDD resultantelabelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). Isso tem saída neste formato: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....]O que eu quero é criar um arquivo CSV com uma coluna ...

16 a resposta

Pyspark: Exception: processo de gateway Java encerrado antes de enviar ao driver seu número de porta

Estou tentando rodar o pyspark no meu macbook air. Quando tento iniciar, recebo o erro: Exception: Java gateway process exited before sending the driver its port number quando sc = SparkContext () estiver sendo chamado na inicialização. Eu ...

2 a resposta

Geração de números aleatórios no PySpark

Vamos começar com uma função simples que sempre retorna um número inteiro aleatório: import numpy as np def f(x): return np.random.randint(1000)e um RDD preenchido com zeros e mapeado usandof: rdd = sc.parallelize([0] * 10).map(f)Como o RDD ...

7 a resposta

Como exportar dados do Spark SQL para CSV

Este comando funciona com o HiveQL: insert overwrite directory '/data/home.csv' select * from testtable;Mas com o Spark SQL, estou recebendo um erro com umorg.apache.spark.sql.hive.HiveQl rastreamento de pilha: java.lang.RuntimeException: ...

3 a resposta

Spark: gravando DataFrame como JSON compactado

Apache Spark'sDataFrameReader.json() pode lidar com arquivos JSONlines compactados automaticamente, mas não parece haver uma maneira de obterDataFrameWriter.json() para gravar arquivos JSONlines compactados. A E / S de rede extra é muito cara na ...

2 a resposta

Como visualizar / plotar uma árvore de decisão no Apache Spark (PySpark 1.4.1)?

Estou usando o Apache Spark Mllib 1.4.1 (PySpark, a implementação python do Spark) para gerar uma árvore de decisão com base nos dados do LabeledPoint que tenho. A árvore é gerada corretamente e eu posso imprimi-la no terminal (extrair as regras ...

1 a resposta

Formato de arquivo de modelo do Apache Spark MLlib

Os algoritmos do Apache Spark MLlib (por exemplo, Árvores de Decisão) salvam o modelo em um local (por exemplo,myModelPath) onde ele cria dois diretórios, viz.myModelPath/data emyModelPath/metadata. Existem vários arquivos nesses caminhos e esses ...

3 a resposta

spark submit java.lang.ClassNotFoundException

Estou tentando executar meu próprio aplicativo spark, mas quando estou usando o comando spark-submit, recebo este erro: Users/_name_here/dev/sp/target/scala-2.10/sp_2.10-0.1-SNAPSHOT.jar ...

3 a resposta

Filtrando um Dataframe Spark com Base na Data

Eu tenho um quadro de dados de date, string, stringQuero selecionar datas antes de um determinado período. Eu tentei o seguinte sem sorte data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime))Estou recebendo um ...

5 a resposta

Como conectar-se a um metastore Hive programaticamente no SparkSQL?

Estou usando o HiveContext com SparkSQL e estou tentando conectar-me a um metastore remoto do Hive, a única maneira de definir o metastore do hive é através da inclusão do hive-site.xml no caminho de classe (ou copiando-o para / etc / spark / ...