Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Como usar o método max no JavaPairRDD

Então, eu estava tentando usar o max noJavaPairRDD mas não conseguiu fazê-lo funcionar. JavaPairRDD<Integer, String> someRdd = (initialisation) String maxValue = someRdd.max() //not workingMeu código:http://ideone.com/0YXCJw ...

1 a resposta

como selecionar todas as colunas que começam com um rótulo comum

Eu tenho um quadro de dados no Spark 1.6 e quero selecionar apenas algumas colunas. Os nomes das colunas são como: colA, colB, colC, colD, colE, colF-0, colF-1, colF-2Eu sei que posso fazer assim para selecionar colunas ...

1 a resposta

Apache Spark - Atribua o resultado do UDF a várias colunas do quadro de dados

Estou usando o pyspark, carregando um arquivo csv grande em um dataframe com spark-csv e, como etapa de pré-processamento, preciso aplicar uma variedade de operações aos dados disponíveis em uma das colunas (que contém uma string json) . Isso ...

1 a resposta

Compartilhe o SparkContext entre Java e R Apps sob o mesmo mestre

Então aqui está a configuração. Atualmente, tenho dois aplicativos Spark inicializados. Eu preciso passar dados entre eles (de preferência através de sparkcontext / sqlcontext compartilhado para que eu possa consultar uma tabela temporária). ...

1 a resposta

Qual é a diferença entre Spark DataSet e RDD

Ainda estou lutando para entender todo o poder dos conjuntos de dados Spark recentemente introduzidos. Existem práticas recomendadas de quando usar RDDs e quando usar conjuntos de dados? Na ...

1 a resposta

Aplicando IndexToString ao vetor de recursos no Spark

Contexto:Eu tenho um quadro de dados onde todos os valores categóricos foram indexados usando StringIndexer. val categoricalColumns = df.schema.collect { case StructField(name, StringType, nullable, meta) => name } val categoryIndexers = ...

1 a resposta

tabelas de cache no apache spark sql

Do oficial Sparkdocumento [http://spark.apache.org/docs/latest/sql-programming-guide.html#caching-data-in-memory] , diz: O Spark SQL pode armazenar em cache tabelas usando um formato colunar na memória chamando sqlContext.cacheTable ...

1 a resposta

Diferença de computação entre os Spark DataFrames

Eu tenho doisDataFrames df1 edf2,. Eu quero calcular um terçoDataFrame ``df3 de tal modo quedf3 = (df1 - df2) ou seja, todos os elementos presentes no df1, mas não no df2. Existe alguma função de biblioteca embutida para alcançar ...

4 a resposta

Exceção incompatível da classe local: ao executar o Spark independente do IDE

Eu começo a testar a faísca. Instalei o spark na minha máquina local e executei um cluster local com um único trabalhador. quando tentei executar meu trabalho no meu IDE, definindo o sparconf da seguinte maneira: final SparkConf conf = ...

1 a resposta

pyspark: Converte DataFrame em RDD [string]

Eu gostaria de converterpyspark.sql.dataframe.DataFrame parapyspark.rdd.RDD[String] Eu converti um DataFramedf para RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDo novo RDDdata contémRow first = data.first() type(first) ## ...