Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Como o spark lê um arquivo grande (petabyte) quando o arquivo não pode caber na memória principal do spark

O que acontecerá com arquivos grandes nesses casos? 1) O Spark obtém uma localização do NameNode para dados. O Spark será interrompido nesse mesmo tempo porque o tamanho dos dados é muito longo conforme as informações do NameNode? 2) O Spark ...

2 a resposta

Caso aninhado Spark Dataframe When

Preciso implementar a lógica SQL abaixo no SparkDataFrame SELECT KEY, CASE WHEN tc in ('a','b') THEN 'Y' WHEN tc in ('a') AND amt > 0 THEN 'N' ELSE NULL END REASON, FROM dataset1;Minha entradaDataFrame é como abaixo: val dataset1 = Seq((66, ...

3 a resposta

Como converter o formato personalizado de data e hora em carimbo de data / hora?

Alguma idéia de por que estou obtendo o resultado abaixo? scala> val b = to_timestamp($"DATETIME", "ddMMMYYYY:HH:mm:ss") b: org.apache.spark.sql.Column = to_timestamp(`DATETIME`, 'ddMMMYYYY:HH:mm:ss') scala> sourceRawData.withColumn("ts", ...

1 a resposta

Distância de cosseno da faísca entre linhas usando Dataframe

Preciso calcular uma distância de cosseno entre cada linha, mas não faço ideia de como fazê-lo usando os quadros de dados da API do Spark de maneira elegante. A idéia é calcular semelhanças para cada linha (itens) e obter as 10 ...

2 a resposta

Podemos usar várias sessões de sparks para acessar dois servidores Hive diferentes

Eu tenho um cenário para comparar duas tabelas diferentes de origem e destino de dois servidores de seção remota separados, podemos usar doisSparkSessions algo como eu tentei abaixo: - val spark = SparkSession.builder().master("local") ...

2 a resposta

Por que o nó do trabalhador não vê atualizações no acumulador em outros nós do trabalhador?

Estou usando umLongAccumulator como um contador compartilhado nas operações do mapa. Mas parece que não estou usando corretamente porque o estado do contador nos nós do trabalhador não é atualizado. Aqui está a aparência da minha classe de ...

3 a resposta

Acesso aos elementos WrappedArray

Eu tenho um spark dataframe e aqui está o esquema: |-- eid: long (nullable = true) |-- age: long (nullable = true) |-- sex: long (nullable = true) |-- father: array (nullable = true) | |-- element: array (containsNull = true) | | |-- element: ...

3 a resposta

Uso do objeto Python personalizado no Pyspark UDF

Ao executar o seguinte código PySpark: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients)) udf_parse_ingredients ...

2 a resposta

Como renomear o arquivo de saída do quadro de dados spark na AWS no spark SCALA

Estou salvando minha saída do quadro de dados spark como arquivo csv no scala com partições. É assim que eu faço issozepelim. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ ...

1 a resposta

Como o Spark lida com dados maiores que a memória do cluster

Se eu tiver apenas 1 executor com memória de 25 GB e se puder executar apenas uma tarefa por vez, será possível processar (transformação e ação) dados de 1 TB se Sim, então como serão lidos e onde os dados intermediários serão ...