Resultados da pesquisa a pedido "apache-spark-sql"

3 a resposta

Como createOrReplaceTempView funciona no Spark?

Eu sou novo no Spark e Spark SQL. ComocreateOrReplaceTempView trabalhar no Spark? Se registrarmos umRDD de objetos como uma tabela irá acender manter todos os dados na memória?

2 a resposta

Como calcular a diferença de data no pyspark?

Eu tenho dados como este: df = sqlContext.createDataFrame([ ('1986/10/15', 'z', 'null'), ('1986/10/15', 'z', 'null'), ('1986/10/15', 'c', 'null'), ('1986/10/15', 'null', 'null'), ('1986/10/16', 'null', '4.0')], ('low', 'high', 'normal'))Quero ...

2 a resposta

Causado por: java.lang.NullPointerException at org.apache.spark.sql.Dataset

Abaixo eu forneço meu código. Eu itero sobre o DataFrameprodRows e para cadaproduct_PK Encontro uma sub-lista correspondente de product_PKs deprodRows. numRecProducts = 10 var listOfProducts: Map[Long,Array[(Long, Int)]] = ...

2 a resposta

Como dividir uma lista em várias colunas no Pyspark?

Eu tenho: key value a [1,2,3] b [2,3,4]Eu quero: key value1 value2 value3 a 1 2 3 b 2 3 4Parece que em scala eu posso escrever:df.select($"value._1", $"value._2", $"value._3"), mas não é possível em python. Então, existe uma boa maneira de ...

1 a resposta

Aviso de causa UDF: CachedKafkaConsumer não está sendo executado no UninterruptibleThread (KAFKA-1894)

Em um habitualstruct_kafka_wordcount.py [https://gist.github.com/hrchu/2b2590f2f737ef430ac32b7f8edc15c0]código, Quando divido linhas em palavras porudf como abaixo, my_split = udf(lambda x: x.split(' '), ArrayType(StringType())) words ...

1 a resposta

Como o Spark SQL decide o número de partições que ele usará ao carregar dados de uma tabela do Hive?

Esta pergunta é a mesma queNúmero de partições de um quadro de dados spark criado pela leitura dos dados da tabela ...

1 a resposta

Como desenrolar a matriz no DataFrame (de JSON)?

Cada registro em um RDD contém um json. Estou usando o SQLContext para criar um DataFrame a partir do Json assim: val signalsJsonRdd = sqlContext.jsonRDD(signalsJson)Abaixo está o esquema. datapayload é uma matriz de itens. Eu quero explodir a ...

2 a resposta

Como escrever um objeto de conjunto de dados para se destacar no spark java?

Estou lendo o arquivo excel usandocom.crealytics.spark.excelpacote. Abaixo está o código para ler um arquivo excel no spark java. Dataset<Row> SourcePropertSet = sqlContext.read() .format("com.crealytics.spark.excel") .option("location", ...

1 a resposta

Onde está a referência para opções de escrita ou leitura por formato?

Eu uso o Spark 1.6.1. Estamos tentando gravar um arquivo ORC no HDFS usando o HiveContext e o DataFrameWriter. Embora possamos usar df.write().orc(<path>)nós preferimos fazer algo como df.write().options(Map("format" -> "orc", "path" -> ...

2 a resposta

Comportamento não persistente do conjunto de dados do Spark

Recentemente, vi um comportamento estranho do Spark. Eu tenho um pipeline no meu aplicativo no qual estou manipulando um grande conjunto de dados - pseudocódigo: val data = spark.read (...) data.join(df1, "key") //etc, more ...