Resultados da pesquisa a pedido "apache-spark"
ElasticSearch para Spark RDD
Eu estava testando a integração do ElasticSearch e Spark na minha máquina local, usando alguns dados de teste carregados na elasticsearch. val sparkConf = new SparkConf().setAppName("Test").setMaster("local") val sc = new SparkContext(sparkConf) ...
Como dividir o arquivo de entrada no Apache Spark
Suponha que eu tenha um arquivo de entrada de tamanho 100 MB. Ele contém um grande número de pontos (par de latão longo) no formato CSV. O que devo fazer para dividir o arquivo de entrada em 10 arquivos de 10 MB no Apache Spark ou como ...
Como eliminar duplicatas usando condições [duplicado]
Esta pergunta já tem uma resposta aqui: Como selecionar a primeira linha de cada grupo? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 respostasEu tenho o seguinte DataFramedf: Como posso excluir duplicatas, mantendo o valor ...
A versão de Jackson é muito antiga
Eu tenho o seguintebuild.sbt Arquivo: name := "myProject" version := "1.0" scalaVersion := "2.11.8" javaOptions ++= Seq("-Xms512M", "-Xmx2048M", "-XX:MaxPermSize=2048M", "-XX:+CMSClassUnloadingEnabled") dependencyOverrides ++= ...
como converter um carimbo de data / hora em string (sem alterar o fuso horário)?
Tenho algumas vezes unix que converto em timestamps emsparklyr e por alguns motivos, também preciso convertê-los em strings. Infelizmente, parece que durante a conversão em stringhive converte para EST (minha localidade). df_new <- ...
Erro no Pipeline do Spark
Estou tentando executar um modelo de regressão logística multinomial from pyspark.sql import SparkSession spark = SparkSession.builder.appName('prepare_data').getOrCreate() from pyspark.sql.types import * spark.sql("DROP TABLE IF EXISTS ...
Pyspark: função de janela personalizada
Atualmente, estou tentando extrair séries de ocorrências consecutivas em um quadro de dados PySpark e ordená-las / classificá-las conforme mostrado abaixo (por conveniência, solicitei o quadro de dados inicial poruser_id etimestamp): df_ini ...
No Spark Streaming, existe uma maneira de detectar quando um lote termina?
Eu uso o Spark 1.6.0 com o Cloudera 5.8.3. eu tenho umDStream objeto e muitas transformações definidas em cima dele, val stream = KafkaUtils.createDirectStream[...](...) val mappedStream = stream.transform { ... }.map { ... } ...
Como associar dois DataFrames no Scala e Apache Spark?
Existem dois DataFrames (Scala, Apache Spark 1.6.1) 1) Partidas MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon2) Dados Pessoais Player | BirthYear ...
Como servir um modelo Spark MLlib?
Estou avaliando ferramentas para aplicativos baseados em ML de produção e uma das nossas opções é o Spark MLlib, mas tenho algumas dúvidas sobre como servir um modelo depois de treinado? Por exemplo, no Azure ML, uma vez treinado, o modelo é ...