Resultados da pesquisa a pedido "apache-spark"
Como salvar / inserir cada DStream em uma tabela permanente
Estou enfrentando um problema com o "Spark Streaming" sobre a inserção do Dstream de saída em umpermanente Tabela SQL. Gostaria de inserir todos os DStream de saída (provenientes de um único lote que desencadeia processos) em uma tabela ...
Como criar o SparkSession com suporte ao Hive (falha com "As classes do Hive não foram encontradas")?
Estou recebendo esse erro ao tentar executar esse código. import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class App { public static void main(String[] args) throws Exception ...
Dataframe.show () é uma ação no spark?
Eu tenho o seguinte código: val df_in = sqlcontext.read.json(jsonFile) // the file resides in hdfs //some operations in here to create df as df_in with two more columns "terms1" and "terms2" val intersectUDF = udf( (seq1:Seq[String], ...
Scala: Spark SQL to_date (unix_timestamp) retornando NULL
Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Estou carregando um CSV bruto em um DataFrame. No csv, embora a coluna seja compatível com o formato de data, eles são gravados como 20161025 em vez de 25/10/2016. O parâmetrodate_format ...
Cache de objeto em executores Spark
Uma boa pergunta para os especialistas do Spark. Estou processando dados em ummap operação (RDD). Dentro da função mapeador, preciso procurar objetos da classeA para ser usado no processamento de elementos em um RDD. Como isso será realizado ...
Divida 1 coluna em 3 colunas no spark scala
Eu tenho um quadro de dados no Spark usando scala que possui uma coluna que eu preciso dividir. scala> test.show +-------------+ |columnToSplit| +-------------+ | a.b.c| | d.e.f| +-------------+Eu preciso dessa coluna dividida para ficar ...
Scala Spark contém vs. não contém
Posso filtrar - como mostrado abaixo - as tuplas em um RDD usando "contains". Mas e quanto a filtrar um RDD usando "não contém"? val rdd2 = rdd1.filter(x => x._1 contains ".")Não consigo encontrar a sintaxe para isso. Supondo que seja possível e ...
função da janela spark sql lag
Eu estou olhando para a função de slide da janela para um Spark DataFrame no Spark SQL, Scala. Eu tenho um dataframe com colunas Col1, Col1, Col1, data. Col1 Col2 Col3 date volume new_col 201601 100.5 201602 120.6 100.5 201603 450.2 120.6 ...
Como executar um script no PySpark
Estou tentando executar um script no ambiente pyspark, mas até agora não consegui. Como posso executar um script como python script.py, mas no pyspark? obrigado
Como obter chaves e valores da coluna MapType no SparkSQL DataFrame
Eu tenho dados em um arquivo de parquet que possui 2 campos:object_id: String ealpha: Map<>. Ele é lido em um quadro de dados no sparkSQL e o esquema se parece com o seguinte: scala> alphaDF.printSchema() root |-- object_id: string (nullable = ...