Resultados da pesquisa a pedido "apache-spark"
Alterar o prefixo do nome do arquivo de saída para DataFrame.write ()
Os arquivos de saída gerados pelo método Spark SQL DataFrame.write () começam com o prefixo do nome da base "part". por exemplo. DataFrame sample_07 = hiveContext.table("sample_07"); sample_07.write().parquet("sample_07_parquet");Resulta ...
Linha Spark para JSON
Gostaria de criar um JSON a partir de um dataframe Spark v.1.6 (usando scala). Eu sei que existe a solução simples de fazerdf.toJSON. No entanto, meu problema parece um pouco diferente. Considere, por exemplo, um quadro de dados com as seguintes ...
java.lang.OutOfMemoryError no pyspark
Hy, Eu tenho um dataframe em um sparkcontext com 400k linhas e 3 colunas. O driver possui 143.5 de memória de armazenamento 16/03/21 19:52:35 INFO BlockManagerMasterEndpoint: Registering block manager localhost:55613 with 143.5 GB RAM, ...
Obtenha um java.lang.LinkageError: ClassCastException ao usar spark sql hivesql no fio
Este é o driver que eu carrego no yarn-cluster: package com.baidu.spark.forhivetest import org.apache.spark.sql._ import org.apache.spark.sql.types._ import org.apache.spark.sql.hive._ import org.apache.spark.SparkContext object ForTest { def ...
No PySpark 1.5.0, como você lista todos os itens da coluna `y` com base nos valores da coluna` x`?
A pergunta a seguir é específica da versão 1.5.0 do PySpark, pois novos recursos são constantemente adicionados ao PySpark. Como você lista todos os itens da colunay com base nos valores da colunax? Por exemplo: rdd = sc.parallelize([ {'x': ...
Como transpor o quadro de dados no Spark 1.5 (nenhum operador de pivô disponível)?
Eu quero transpor a tabela a seguir usando spark scala sem função Pivot Estou usando o Spark 1.5.1 e a função Pivot não oferece suporte no 1.5.1. Sugira um método adequado para transpor a tabela a seguir: Customer Day Sales 1 Mon 12 1 Tue 10 1 ...
Execução de consulta SQL do Spark no Hive
Eu sou novo no Spark SQL, mas ciente da estrutura de execução de consultas da seção. Gostaria de entender como o spark executa consultas sql (descrição técnica)? Se eu atirar abaixo do comando val sqlContext = new ...
Spark lendo pickle python3 como entrada
Meus dados estão disponíveis como conjuntos de arquivos pickled do Python 3. A maioria deles é serialização de PandasDataFrames. Eu gostaria de começar a usar o Spark porque preciso de mais memória e CPU que um computador pode ter. Além disso, ...
Spark ML - Save OneVsRestModel
Estou refatorando meu código para tirar proveito deQuadros de dados, estimadores e pipelines [http://spark.apache.org/docs/latest/ml-guide.html]. Eu estava usando originalmenteMLlib Multiclass ...
./spark-shell não inicia corretamente (versão spark1.6.1-bin.hadoop2.6)
Eu instalei esta versão do spark: spark-1.6.1-bin-hadoop2.6.tgz. Agora, quando eu começo faísca com./spark-shell comando Estou recebendo esses problemas (ele mostra muitas linhas de erro, então apenas coloquei algumas que parecem ...