Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Alterar o prefixo do nome do arquivo de saída para DataFrame.write ()

Os arquivos de saída gerados pelo método Spark SQL DataFrame.write () começam com o prefixo do nome da base "part". por exemplo. DataFrame sample_07 = hiveContext.table("sample_07"); sample_07.write().parquet("sample_07_parquet");Resulta ...

3 a resposta

Linha Spark para JSON

Gostaria de criar um JSON a partir de um dataframe Spark v.1.6 (usando scala). Eu sei que existe a solução simples de fazerdf.toJSON. No entanto, meu problema parece um pouco diferente. Considere, por exemplo, um quadro de dados com as seguintes ...

4 a resposta

java.lang.OutOfMemoryError no pyspark

Hy, Eu tenho um dataframe em um sparkcontext com 400k linhas e 3 colunas. O driver possui 143.5 de memória de armazenamento 16/03/21 19:52:35 INFO BlockManagerMasterEndpoint: Registering block manager localhost:55613 with 143.5 GB RAM, ...

1 a resposta

Obtenha um java.lang.LinkageError: ClassCastException ao usar spark sql hivesql no fio

Este é o driver que eu carrego no yarn-cluster: package com.baidu.spark.forhivetest import org.apache.spark.sql._ import org.apache.spark.sql.types._ import org.apache.spark.sql.hive._ import org.apache.spark.SparkContext object ForTest { def ...

1 a resposta

No PySpark 1.5.0, como você lista todos os itens da coluna `y` com base nos valores da coluna` x`?

A pergunta a seguir é específica da versão 1.5.0 do PySpark, pois novos recursos são constantemente adicionados ao PySpark. Como você lista todos os itens da colunay com base nos valores da colunax? Por exemplo: rdd = sc.parallelize([ {'x': ...

3 a resposta

Como transpor o quadro de dados no Spark 1.5 (nenhum operador de pivô disponível)?

Eu quero transpor a tabela a seguir usando spark scala sem função Pivot Estou usando o Spark 1.5.1 e a função Pivot não oferece suporte no 1.5.1. Sugira um método adequado para transpor a tabela a seguir: Customer Day Sales 1 Mon 12 1 Tue 10 1 ...

1 a resposta

Execução de consulta SQL do Spark no Hive

Eu sou novo no Spark SQL, mas ciente da estrutura de execução de consultas da seção. Gostaria de entender como o spark executa consultas sql (descrição técnica)? Se eu atirar abaixo do comando val sqlContext = new ...

1 a resposta

Spark lendo pickle python3 como entrada

Meus dados estão disponíveis como conjuntos de arquivos pickled do Python 3. A maioria deles é serialização de PandasDataFrames. Eu gostaria de começar a usar o Spark porque preciso de mais memória e CPU que um computador pode ter. Além disso, ...

1 a resposta

Spark ML - Save OneVsRestModel

Estou refatorando meu código para tirar proveito deQuadros de dados, estimadores e pipelines [http://spark.apache.org/docs/latest/ml-guide.html]. Eu estava usando originalmenteMLlib Multiclass ...

2 a resposta

./spark-shell não inicia corretamente (versão spark1.6.1-bin.hadoop2.6)

Eu instalei esta versão do spark: spark-1.6.1-bin-hadoop2.6.tgz. Agora, quando eu começo faísca com./spark-shell comando Estou recebendo esses problemas (ele mostra muitas linhas de erro, então apenas coloquei algumas que parecem ...