Resultados da pesquisa a pedido "apache-spark-sql"
Aumento da memória física para um aplicativo Spark no YARN
Estou executando um aplicativo Spark no YARN com dois executores com Xms / Xmx como 32 GB e spark.yarn.excutor.memoryOverhead como 6 GB. Estou vendo que a memória física do aplicativo está sempre aumentando e finalmente é eliminada pelo ...
Consulta do Spark em execução muito lenta
Eu tenho um cluster na AWS com 2 escravos e 1 mestre. Todas as instâncias são do tipo m1.large. Estou executando o spark versão 1.4. Estou comparando o desempenho da faísca em dados de 4 milhões provenientes do desvio para o vermelho. Disparei ...
SPARK: falha: `` união '' esperada, mas `('encontrada
Eu tenho um dataframe chamado df com a coluna employee_id. Estou fazendo: df.registerTempTable("d_f") val query = """SELECT *, ROW_NUMBER() OVER (ORDER BY employee_id) row_number FROM d_f""" val result = Spark.getSqlContext().sql(query)Mas ...
Calcular o desvio padrão de dados agrupados em um Spark DataFrame
Eu tenho logs de usuário que tirei de um csv e converti em um DataFrame para aproveitar os recursos de consulta do SparkSQL. Um único usuário criará inúmeras entradas por hora e eu gostaria de reunir algumas informações estatísticas básicas para ...
Grupo de quadros de dados do Spark
Eu estou tentando fazer alguma análise sobre conjuntos. Eu tenho um conjunto de dados de exemplo que se parece com isso: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}Tudo o que existe é um único campo ...
Como exportar dados do Spark SQL para CSV
Este comando funciona com o HiveQL: insert overwrite directory '/data/home.csv' select * from testtable;Mas com o Spark SQL, estou recebendo um erro com umorg.apache.spark.sql.hive.HiveQl rastreamento de pilha: java.lang.RuntimeException: ...
Spark: gravando DataFrame como JSON compactado
Apache Spark'sDataFrameReader.json() pode lidar com arquivos JSONlines compactados automaticamente, mas não parece haver uma maneira de obterDataFrameWriter.json() para gravar arquivos JSONlines compactados. A E / S de rede extra é muito cara na ...
Filtrando um Dataframe Spark com Base na Data
Eu tenho um quadro de dados de date, string, stringQuero selecionar datas antes de um determinado período. Eu tentei o seguinte sem sorte data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime))Estou recebendo um ...
Como conectar-se a um metastore Hive programaticamente no SparkSQL?
Estou usando o HiveContext com SparkSQL e estou tentando conectar-me a um metastore remoto do Hive, a única maneira de definir o metastore do hive é através da inclusão do hive-site.xml no caminho de classe (ou copiando-o para / etc / spark / ...
Spark SQL - String de Consulta de Escape
Não acredito que estou perguntando isso, mas ... COMO ESCAPAR UMA QUERY STRING DO SQL NO SPARK SQL USANDO SCALA? Eu cansei de tudo e procurei em todos os lugares. Eu pensei que a biblioteca apache commons faria isso, mas sem sorte: import ...