Resultados da pesquisa a pedido "apache-spark"
Qual é a maneira preferida de evitar injeções de SQL no Spark-SQL (no Hive)
Assuma um esquemaRDDrdd com uma tabela registradacustomer. Você deseja filtrar os registros de acordo com uma entrada do usuário. Uma idéia que você pode ter como fazer isso é a seguinte: rdd.sqlContext.sql(s"SELECT * FROM customer WHERE ...
Posso ter várias versões de spark instaladas no CDH?
Estou usando o cdh5.1.0, que já possui o spark padrão instalado. No entanto, eu quero usar o Spark 1.3. Também posso instalar esta versão no cdh5.1.0? Como é possível configurá-los? A nova versão do spark também será monitorada via gerenciador ...
Aplicação em execução Spark Spark
Eu tenho um aplicativo Spark em execução, onde ele ocupa todos os núcleos, onde meus outros aplicativos não receberão nenhum recurso. Eu fiz uma pesquisa rápida e as pessoas sugeriram o uso do YARN kill ou / bin / spark-class para matar o ...
como definir e obter variáveis estáticas do spark?
Eu tenho uma classe como esta: public class Test { private static String name; public static String getName() { return name; } public static void setName(String name) { Test.name = name; } public static void print() { System.out.println(name); } ...
Serializing RDD
Eu tenho um RDD que estou tentando serializar e depois reconstruir desserializando. Estou tentando ver se isso é possível no Apache Spark. static JavaSparkContext sc = new JavaSparkContext(conf); static SerializerInstance si = ...
criar e exibir spark dataframe a partir de um arquivo json simples
O seguinte teste simples do json DataFrame funciona bem ao executar o Spark no modo local. Aqui está o trecho do Scala, mas também consegui trabalhar com a mesma coisa em Java e Python: sparkContext.addFile(jsonPath) val sqlContext = ...
Como excluir colunas no pyspark dataframe
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...
log customizado usando spark
Estou tentando configurar um log personalizado usando o envio de spark, este é o meu configure: driver: -DlogsPath=/var/opt/log\ ...
Spark: subtrair dois DataFrames
Na versão Spark1.2.0 alguém poderia usarsubtract com 2SchemRDDs para terminar com apenas o conteúdo diferente do primeiro val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)onlyNewData contém as linhas emtodaySchemRDD que não existem ...
Como verificar a versão do Spark
como intitulado, como sei qual versão do spark foi instalada no CentOS? O sistema atual instalou o cdh5.1.0.