Resultados da pesquisa a pedido "apache-spark"
Como o spark lê um arquivo grande (petabyte) quando o arquivo não pode caber na memória principal do spark
O que acontecerá com arquivos grandes nesses casos? 1) O Spark obtém uma localização do NameNode para dados. O Spark será interrompido nesse mesmo tempo porque o tamanho dos dados é muito longo conforme as informações do NameNode? 2) O Spark ...
Caso aninhado Spark Dataframe When
Preciso implementar a lógica SQL abaixo no SparkDataFrame SELECT KEY, CASE WHEN tc in ('a','b') THEN 'Y' WHEN tc in ('a') AND amt > 0 THEN 'N' ELSE NULL END REASON, FROM dataset1;Minha entradaDataFrame é como abaixo: val dataset1 = Seq((66, ...
Como converter o formato personalizado de data e hora em carimbo de data / hora?
Alguma idéia de por que estou obtendo o resultado abaixo? scala> val b = to_timestamp($"DATETIME", "ddMMMYYYY:HH:mm:ss") b: org.apache.spark.sql.Column = to_timestamp(`DATETIME`, 'ddMMMYYYY:HH:mm:ss') scala> sourceRawData.withColumn("ts", ...
Distância de cosseno da faísca entre linhas usando Dataframe
Preciso calcular uma distância de cosseno entre cada linha, mas não faço ideia de como fazê-lo usando os quadros de dados da API do Spark de maneira elegante. A idéia é calcular semelhanças para cada linha (itens) e obter as 10 ...
Podemos usar várias sessões de sparks para acessar dois servidores Hive diferentes
Eu tenho um cenário para comparar duas tabelas diferentes de origem e destino de dois servidores de seção remota separados, podemos usar doisSparkSessions algo como eu tentei abaixo: - val spark = SparkSession.builder().master("local") ...
Por que o nó do trabalhador não vê atualizações no acumulador em outros nós do trabalhador?
Estou usando umLongAccumulator como um contador compartilhado nas operações do mapa. Mas parece que não estou usando corretamente porque o estado do contador nos nós do trabalhador não é atualizado. Aqui está a aparência da minha classe de ...
Acesso aos elementos WrappedArray
Eu tenho um spark dataframe e aqui está o esquema: |-- eid: long (nullable = true) |-- age: long (nullable = true) |-- sex: long (nullable = true) |-- father: array (nullable = true) | |-- element: array (containsNull = true) | | |-- element: ...
Uso do objeto Python personalizado no Pyspark UDF
Ao executar o seguinte código PySpark: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients)) udf_parse_ingredients ...
Como renomear o arquivo de saída do quadro de dados spark na AWS no spark SCALA
Estou salvando minha saída do quadro de dados spark como arquivo csv no scala com partições. É assim que eu faço issozepelim. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ ...
Como o Spark lida com dados maiores que a memória do cluster
Se eu tiver apenas 1 executor com memória de 25 GB e se puder executar apenas uma tarefa por vez, será possível processar (transformação e ação) dados de 1 TB se Sim, então como serão lidos e onde os dados intermediários serão ...