Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Spark não funciona com pureconfig

Estou tentando usar pureConfig e configFactory para minha configuração de aplicativo spark. aqui está o meu código: import pureconfig.{loadConfigOrThrow} object Source{ def apply(keyName: String, configArguments: Config): Source = { ...

2 a resposta

Incompatibilidade de tipo: não é possível converter do Iterator <> no Java Spark

Exceção no encadeamento "main" java.lang.Error: Problema de compilação não resolvido: incompatibilidade de tipo: não é possível converter de Iterator em Iterable em com.spark.wordcount.lession1.WordCount2.main (WordCount2.java:26) SparkConf ...

1 a resposta

Como ler vários elementos de linha no Spark?

Quando você lê um arquivo no Spark usandosc.textfile, fornece elementos, onde cada elemento é uma linha separada. No entanto, quero que cada elemento seja composto por N número de linhas. Também não posso usar delimitadores porque não há nenhum ...

1 a resposta

O Spark Streaming com Neo4j trava ao executar com o Docker

Criei uma imagem do docker do meu aplicativo quando simplesmente o executo a partir do script bash, ele funciona corretamente. No entanto, quando eu o executo como parte do arquivo docker-compose, o aplicativo trava na mensagem: 18/06/27 ...

1 a resposta

Arquivo de configuração para definir a estrutura do esquema JSON no PySpark

Eu criei um aplicativo PySpark que lê o arquivo JSON em um dataframe por meio de um esquema definido. amostra de código abaixo schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), True), ]) df= ...

2 a resposta

Spark: transmitindo jackson ObjectMapper

Eu tenho um aplicativo spark que lê linhas de arquivos e tenta desserializá-los usando jackson. Para que esse código funcionasse, eu precisava definir o ObjectMapper dentro da operação Map (caso contrário, recebi uma NullPointerException). Eu ...

4 a resposta

Como criar bons exemplos reproduzíveis do Apache Spark

Passei bastante tempo lendo algumas perguntas com opyspark [/questions/tagged/pyspark]espark-dataframe [/questions/tagged/spark-dataframe] tags e, muitas vezes, acho que os pôsteres não fornecem informações suficientes para entender realmente a ...

3 a resposta

Como passo o argumento do programa para a função principal na execução de envio de spark com um JAR?

Sei que essa é uma pergunta trivial, mas não consegui encontrar a resposta na internet. Estou tentando executar uma classe Java com omain função com argumentos do programa (String[] args) No entanto, quando envio o trabalho usandospark-submit e ...

1 a resposta

Árvores impulsionadas por gradiente Spark ML que não usam todos os nós

Estou usando oSpark ML GBTClassifier [https://spark.apache.org/docs/2.2.0/api/python/pyspark.ml.html#pyspark.ml.classification.GBTClassifier] nopyspark para treinar um modelo de classificação binária em um dataframe com ~ 400k linhas e ~ 9k ...

2 a resposta

INFO continuamente JobScheduler: 59 - Trabalhos adicionados por tempo *** ms no meu cluster independente Spark

Estamos trabalhando com o Spark Standalone Cluster com 8 núcleos e 32 GB de RAM, com cluster de 3 nós com a mesma configuração. Algumas vezes, o lote de streaming é concluído em menos de 1 segundo. algumas vezes, leva mais de 10 segundos e o log ...