Resultados da pesquisa a pedido "apache-spark"
Como o Spark DataFrame lida com o Pandas DataFrame que é maior que a memória
Estou aprendendo o Spark agora e parece ser a solução de big data para o Pandas Dataframe, mas tenho essa pergunta que me deixa insegura. Atualmente, estou armazenando quadros de dados do Pandas maiores que a memória usando o HDF5. O HDF5 é uma ...
Pyspark e PCA: Como posso extrair os autovetores deste PCA? Como posso calcular quanta variação eles estão explicando?
Estou reduzindo a dimensionalidade de umSpark DataFrame comPCA modelo com pyspark (usando ospark ml biblioteca) da seguinte forma: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)Ondedata é umSpark DataFrame ...
Inicialize um RDD para esvaziar
Eu tenho um RDD chamado JavaPairRDD<String, List<String>> existingRDD;Agora eu preciso inicializar issoexistingRDD esvaziar para que, quando eu recebo os reais, eu possa fazer uma união com issoexistingRDD. Como inicializoexistingRDD para um RDD ...
Ignorar a primeira linha de cada arquivo no Spark (Scala)
Estou processando uma pasta S3 contendo arquivos csv.gz no Spark. Cada arquivo csv.gz possui um cabeçalho que contém nomes de colunas. A maneira como carrego os dados contidos no Spark é fazer referência ao caminho / pasta, assim: val rdd = ...
Problemas com a execução de várias consultas usando Spark e HiveSQL
Espero que alguém possa me ajudar com esse problema. Dentro do shell de faísca, onde se eu tentar algo como abaixo: var sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) var query = "select * from myDB.table limit 10; drop table if ...
O Apache Spark lança NullPointerException ao encontrar o recurso ausente
Eu tenho um problema bizarro com o PySpark ao indexar colunas de strings em recursos. Aqui está o meu arquivo tmp.csv: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1onde eu tenho um ...
Como adicionar um Spark Dataframe na parte inferior de outro dataframe?
Eu posso usarwithcolumnpara adicionar novas colunas a um Dataframe. Mas no scala como posso adicionar novas linhas a um DataFrame? Estou tentando adicionar um quadro de dados na parte inferior de outro. Portanto, como adicionar linhas no scala ...
Multiplicação de matrizes no Apache Spark [fechado]
Estou tentando executar a multiplicação de matrizes usando Apache Spark e Java. Eu tenho 2 perguntas principais: Como criar RDD que pode representar matriz no Apache Spark?Como multiplicar dois desses RDDs?
Por que "Não é possível chamar métodos em um SparkContext parado" é lançado ao conectar-se ao Spark Standalone a partir de um aplicativo Java?
Fiz o download do Apache Spark 1.4.1 pré-criado para o Hadoop 2.6 e posterior. Eu tenho duas máquinas Ubuntu 14.04. Um deles eu configurei como mestre Spark com um único escravo e a segunda máquina está executando um escravo Spark. Quando executo ...
SparkR: split-apply-combine no estilo dplyr no DataFrame
Sob o paradigma RDD anterior, eu poderia especificar uma chave e, em seguida, mapear uma operação para os elementos RDD correspondentes a cada chave. Não vejo uma maneira clara de fazer isso com o DataFrame no SparkR a partir da 1.5.1. O que eu ...