Resultados da pesquisa a pedido "apache-spark"
Como usar o método max no JavaPairRDD
Então, eu estava tentando usar o max noJavaPairRDD mas não conseguiu fazê-lo funcionar. JavaPairRDD<Integer, String> someRdd = (initialisation) String maxValue = someRdd.max() //not workingMeu código:http://ideone.com/0YXCJw ...
como selecionar todas as colunas que começam com um rótulo comum
Eu tenho um quadro de dados no Spark 1.6 e quero selecionar apenas algumas colunas. Os nomes das colunas são como: colA, colB, colC, colD, colE, colF-0, colF-1, colF-2Eu sei que posso fazer assim para selecionar colunas ...
Apache Spark - Atribua o resultado do UDF a várias colunas do quadro de dados
Estou usando o pyspark, carregando um arquivo csv grande em um dataframe com spark-csv e, como etapa de pré-processamento, preciso aplicar uma variedade de operações aos dados disponíveis em uma das colunas (que contém uma string json) . Isso ...
Compartilhe o SparkContext entre Java e R Apps sob o mesmo mestre
Então aqui está a configuração. Atualmente, tenho dois aplicativos Spark inicializados. Eu preciso passar dados entre eles (de preferência através de sparkcontext / sqlcontext compartilhado para que eu possa consultar uma tabela temporária). ...
Qual é a diferença entre Spark DataSet e RDD
Ainda estou lutando para entender todo o poder dos conjuntos de dados Spark recentemente introduzidos. Existem práticas recomendadas de quando usar RDDs e quando usar conjuntos de dados? Na ...
Aplicando IndexToString ao vetor de recursos no Spark
Contexto:Eu tenho um quadro de dados onde todos os valores categóricos foram indexados usando StringIndexer. val categoricalColumns = df.schema.collect { case StructField(name, StringType, nullable, meta) => name } val categoryIndexers = ...
tabelas de cache no apache spark sql
Do oficial Sparkdocumento [http://spark.apache.org/docs/latest/sql-programming-guide.html#caching-data-in-memory] , diz: O Spark SQL pode armazenar em cache tabelas usando um formato colunar na memória chamando sqlContext.cacheTable ...
Diferença de computação entre os Spark DataFrames
Eu tenho doisDataFrames df1 edf2,. Eu quero calcular um terçoDataFrame ``df3 de tal modo quedf3 = (df1 - df2) ou seja, todos os elementos presentes no df1, mas não no df2. Existe alguma função de biblioteca embutida para alcançar ...
Exceção incompatível da classe local: ao executar o Spark independente do IDE
Eu começo a testar a faísca. Instalei o spark na minha máquina local e executei um cluster local com um único trabalhador. quando tentei executar meu trabalho no meu IDE, definindo o sparconf da seguinte maneira: final SparkConf conf = ...
pyspark: Converte DataFrame em RDD [string]
Eu gostaria de converterpyspark.sql.dataframe.DataFrame parapyspark.rdd.RDD[String] Eu converti um DataFramedf para RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDo novo RDDdata contémRow first = data.first() type(first) ## ...