Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Qual é a maneira preferida de evitar injeções de SQL no Spark-SQL (no Hive)

Assuma um esquemaRDDrdd com uma tabela registradacustomer. Você deseja filtrar os registros de acordo com uma entrada do usuário. Uma idéia que você pode ter como fazer isso é a seguinte: rdd.sqlContext.sql(s"SELECT * FROM customer WHERE ...

2 a resposta

Posso ter várias versões de spark instaladas no CDH?

Estou usando o cdh5.1.0, que já possui o spark padrão instalado. No entanto, eu quero usar o Spark 1.3. Também posso instalar esta versão no cdh5.1.0? Como é possível configurá-los? A nova versão do spark também será monitorada via gerenciador ...

2 a resposta

Aplicação em execução Spark Spark

Eu tenho um aplicativo Spark em execução, onde ele ocupa todos os núcleos, onde meus outros aplicativos não receberão nenhum recurso. Eu fiz uma pesquisa rápida e as pessoas sugeriram o uso do YARN kill ou / bin / spark-class para matar o ...

2 a resposta

como definir e obter variáveis estáticas do spark?

Eu tenho uma classe como esta: public class Test { private static String name; public static String getName() { return name; } public static void setName(String name) { Test.name = name; } public static void print() { System.out.println(name); } ...

1 a resposta

Serializing RDD

Eu tenho um RDD que estou tentando serializar e depois reconstruir desserializando. Estou tentando ver se isso é possível no Apache Spark. static JavaSparkContext sc = new JavaSparkContext(conf); static SerializerInstance si = ...

1 a resposta

criar e exibir spark dataframe a partir de um arquivo json simples

O seguinte teste simples do json DataFrame funciona bem ao executar o Spark no modo local. Aqui está o trecho do Scala, mas também consegui trabalhar com a mesma coisa em Java e Python: sparkContext.addFile(jsonPath) val sqlContext = ...

6 a resposta

Como excluir colunas no pyspark dataframe

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: ...

2 a resposta

log customizado usando spark

Estou tentando configurar um log personalizado usando o envio de spark, este é o meu configure: driver: -DlogsPath=/var/opt/log\ ...

3 a resposta

Spark: subtrair dois DataFrames

Na versão Spark1.2.0 alguém poderia usarsubtract com 2SchemRDDs para terminar com apenas o conteúdo diferente do primeiro val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)onlyNewData contém as linhas emtodaySchemRDD que não existem ...

8 a resposta

Como verificar a versão do Spark

como intitulado, como sei qual versão do spark foi instalada no CentOS? O sistema atual instalou o cdh5.1.0.