Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Como salvar / inserir cada DStream em uma tabela permanente

Estou enfrentando um problema com o "Spark Streaming" sobre a inserção do Dstream de saída em umpermanente Tabela SQL. Gostaria de inserir todos os DStream de saída (provenientes de um único lote que desencadeia processos) em uma tabela ...

3 a resposta

Como criar o SparkSession com suporte ao Hive (falha com "As classes do Hive não foram encontradas")?

Estou recebendo esse erro ao tentar executar esse código. import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class App { public static void main(String[] args) throws Exception ...

1 a resposta

Dataframe.show () é uma ação no spark?

Eu tenho o seguinte código: val df_in = sqlcontext.read.json(jsonFile) // the file resides in hdfs //some operations in here to create df as df_in with two more columns "terms1" and "terms2" val intersectUDF = udf( (seq1:Seq[String], ...

1 a resposta

Scala: Spark SQL to_date (unix_timestamp) retornando NULL

Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Estou carregando um CSV bruto em um DataFrame. No csv, embora a coluna seja compatível com o formato de data, eles são gravados como 20161025 em vez de 25/10/2016. O parâmetrodate_format ...

3 a resposta

Cache de objeto em executores Spark

Uma boa pergunta para os especialistas do Spark. Estou processando dados em ummap operação (RDD). Dentro da função mapeador, preciso procurar objetos da classeA para ser usado no processamento de elementos em um RDD. Como isso será realizado ...

5 a resposta

Divida 1 coluna em 3 colunas no spark scala

Eu tenho um quadro de dados no Spark usando scala que possui uma coluna que eu preciso dividir. scala> test.show +-------------+ |columnToSplit| +-------------+ | a.b.c| | d.e.f| +-------------+Eu preciso dessa coluna dividida para ficar ...

1 a resposta

Scala Spark contém vs. não contém

Posso filtrar - como mostrado abaixo - as tuplas em um RDD usando "contains". Mas e quanto a filtrar um RDD usando "não contém"? val rdd2 = rdd1.filter(x => x._1 contains ".")Não consigo encontrar a sintaxe para isso. Supondo que seja possível e ...

2 a resposta

função da janela spark sql lag

Eu estou olhando para a função de slide da janela para um Spark DataFrame no Spark SQL, Scala. Eu tenho um dataframe com colunas Col1, Col1, Col1, data. Col1 Col2 Col3 date volume new_col 201601 100.5 201602 120.6 100.5 201603 450.2 120.6 ...

3 a resposta

Como executar um script no PySpark

Estou tentando executar um script no ambiente pyspark, mas até agora não consegui. Como posso executar um script como python script.py, mas no pyspark? obrigado

1 a resposta

Como obter chaves e valores da coluna MapType no SparkSQL DataFrame

Eu tenho dados em um arquivo de parquet que possui 2 campos:object_id: String ealpha: Map<>. Ele é lido em um quadro de dados no sparkSQL e o esquema se parece com o seguinte: scala> alphaDF.printSchema() root |-- object_id: string (nullable = ...