Resultados da pesquisa a pedido "apache-spark"
Como gravar o RDD resultante em um arquivo CSV no Spark python
Eu tenho um RDD resultantelabelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). Isso tem saída neste formato: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....]O que eu quero é criar um arquivo CSV com uma coluna ...
Pyspark: Exception: processo de gateway Java encerrado antes de enviar ao driver seu número de porta
Estou tentando rodar o pyspark no meu macbook air. Quando tento iniciar, recebo o erro: Exception: Java gateway process exited before sending the driver its port number quando sc = SparkContext () estiver sendo chamado na inicialização. Eu ...
Geração de números aleatórios no PySpark
Vamos começar com uma função simples que sempre retorna um número inteiro aleatório: import numpy as np def f(x): return np.random.randint(1000)e um RDD preenchido com zeros e mapeado usandof: rdd = sc.parallelize([0] * 10).map(f)Como o RDD ...
Como exportar dados do Spark SQL para CSV
Este comando funciona com o HiveQL: insert overwrite directory '/data/home.csv' select * from testtable;Mas com o Spark SQL, estou recebendo um erro com umorg.apache.spark.sql.hive.HiveQl rastreamento de pilha: java.lang.RuntimeException: ...
Spark: gravando DataFrame como JSON compactado
Apache Spark'sDataFrameReader.json() pode lidar com arquivos JSONlines compactados automaticamente, mas não parece haver uma maneira de obterDataFrameWriter.json() para gravar arquivos JSONlines compactados. A E / S de rede extra é muito cara na ...
Como visualizar / plotar uma árvore de decisão no Apache Spark (PySpark 1.4.1)?
Estou usando o Apache Spark Mllib 1.4.1 (PySpark, a implementação python do Spark) para gerar uma árvore de decisão com base nos dados do LabeledPoint que tenho. A árvore é gerada corretamente e eu posso imprimi-la no terminal (extrair as regras ...
Formato de arquivo de modelo do Apache Spark MLlib
Os algoritmos do Apache Spark MLlib (por exemplo, Árvores de Decisão) salvam o modelo em um local (por exemplo,myModelPath) onde ele cria dois diretórios, viz.myModelPath/data emyModelPath/metadata. Existem vários arquivos nesses caminhos e esses ...
spark submit java.lang.ClassNotFoundException
Estou tentando executar meu próprio aplicativo spark, mas quando estou usando o comando spark-submit, recebo este erro: Users/_name_here/dev/sp/target/scala-2.10/sp_2.10-0.1-SNAPSHOT.jar ...
Filtrando um Dataframe Spark com Base na Data
Eu tenho um quadro de dados de date, string, stringQuero selecionar datas antes de um determinado período. Eu tentei o seguinte sem sorte data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime))Estou recebendo um ...
Como conectar-se a um metastore Hive programaticamente no SparkSQL?
Estou usando o HiveContext com SparkSQL e estou tentando conectar-me a um metastore remoto do Hive, a única maneira de definir o metastore do hive é através da inclusão do hive-site.xml no caminho de classe (ou copiando-o para / etc / spark / ...