Resultados da pesquisa a pedido "apache-spark"

2 a resposta

ElasticSearch para Spark RDD

Eu estava testando a integração do ElasticSearch e Spark na minha máquina local, usando alguns dados de teste carregados na elasticsearch. val sparkConf = new SparkConf().setAppName("Test").setMaster("local") val sc = new SparkContext(sparkConf) ...

2 a resposta

Como dividir o arquivo de entrada no Apache Spark

Suponha que eu tenha um arquivo de entrada de tamanho 100 MB. Ele contém um grande número de pontos (par de latão longo) no formato CSV. O que devo fazer para dividir o arquivo de entrada em 10 arquivos de 10 MB no Apache Spark ou como ...

1 a resposta

Como eliminar duplicatas usando condições [duplicado]

Esta pergunta já tem uma resposta aqui: Como selecionar a primeira linha de cada grupo? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 respostasEu tenho o seguinte DataFramedf: Como posso excluir duplicatas, mantendo o valor ...

1 a resposta

A versão de Jackson é muito antiga

Eu tenho o seguintebuild.sbt Arquivo: name := "myProject" version := "1.0" scalaVersion := "2.11.8" javaOptions ++= Seq("-Xms512M", "-Xmx2048M", "-XX:MaxPermSize=2048M", "-XX:+CMSClassUnloadingEnabled") dependencyOverrides ++= ...

3 a resposta

como converter um carimbo de data / hora em string (sem alterar o fuso horário)?

Tenho algumas vezes unix que converto em timestamps emsparklyr e por alguns motivos, também preciso convertê-los em strings. Infelizmente, parece que durante a conversão em stringhive converte para EST (minha localidade). df_new <- ...

1 a resposta

Erro no Pipeline do Spark

Estou tentando executar um modelo de regressão logística multinomial from pyspark.sql import SparkSession spark = SparkSession.builder.appName('prepare_data').getOrCreate() from pyspark.sql.types import * spark.sql("DROP TABLE IF EXISTS ...

2 a resposta

Pyspark: função de janela personalizada

Atualmente, estou tentando extrair séries de ocorrências consecutivas em um quadro de dados PySpark e ordená-las / classificá-las conforme mostrado abaixo (por conveniência, solicitei o quadro de dados inicial poruser_id etimestamp): df_ini ...

1 a resposta

No Spark Streaming, existe uma maneira de detectar quando um lote termina?

Eu uso o Spark 1.6.0 com o Cloudera 5.8.3. eu tenho umDStream objeto e muitas transformações definidas em cima dele, val stream = KafkaUtils.createDirectStream[...](...) val mappedStream = stream.transform { ... }.map { ... } ...

3 a resposta

Como associar dois DataFrames no Scala e Apache Spark?

Existem dois DataFrames (Scala, Apache Spark 1.6.1) 1) Partidas MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon2) Dados Pessoais Player | BirthYear ...

3 a resposta

Como servir um modelo Spark MLlib?

Estou avaliando ferramentas para aplicativos baseados em ML de produção e uma das nossas opções é o Spark MLlib, mas tenho algumas dúvidas sobre como servir um modelo depois de treinado? Por exemplo, no Azure ML, uma vez treinado, o modelo é ...