Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Crie um quadro de dados no pyspark que contenha uma única coluna de tuplas

Eu tenho um RDD que contém o seguinte [('coluna 1', valor), ('coluna 2', valor), ('coluna 3', valor), ..., ('coluna 100', valor)]. Quero criar um quadro de dados que contenha uma única coluna com tuplas. O mais próximo que cheguei é: schema = ...

1 a resposta

Como registrar byte [] [] usando serialização kryo para spark

Estou tentando utilizar totalmente a serialização kryo para faísca. Configuração .set("spark.kryo.registrationRequired", "true")Isso informará quais classes precisam ser registradas. Eu registrei cerca de 40 aulas, algumas das minhas e de Spark. ...

5 a resposta

Exceção de transmissão do Twitter no Spark: (org.apache.spark.Logging) classnotfound

Estou tentando o exemplo do Spark Twitter Streaming com Scala usando Maven, mas estou recebendo o erro abaixo quando o executo: Causado por: java.lang.ClassNotFoundException: org.apache.spark.Logging Abaixo estão minhas ...

5 a resposta

como converter json string para dataframe no spark

Eu quero converter variável de string abaixo para dataframe no spark. val jsonStr = "{ "metadata": { "key": 84896, "value": 54 }}"Eu sei como criar dataframe a partir do arquivo json. sqlContext.read.json("file.json")mas não sei como criar ...

1 a resposta

A versão de Jackson é muito antiga

Eu tenho o seguintebuild.sbt Arquivo: name := "myProject" version := "1.0" scalaVersion := "2.11.8" javaOptions ++= Seq("-Xms512M", "-Xmx2048M", "-XX:MaxPermSize=2048M", "-XX:+CMSClassUnloadingEnabled") dependencyOverrides ++= ...

1 a resposta

Particionando por várias colunas no Spark SQL

Com as funções de janela do Spark SQL, preciso particionar por várias colunas para executar minhas consultas de dados, da seguinte maneira: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) No momento, não tenho um ...

2 a resposta

Como saber qual parte do código é executada no driver ou executor?

Eu sou novo no Spark. Como saber qual parte do código será executada no driver e qual será executada nos executores? Sempre temos que tentar codificar para que tudo corra nos executores? Existem recomendações / maneiras de aproveitar ao máximo o ...

1 a resposta

Arquivo de configuração para definir a estrutura do esquema JSON no PySpark

Eu criei um aplicativo PySpark que lê o arquivo JSON em um dataframe por meio de um esquema definido. amostra de código abaixo schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), True), ]) df= ...

2 a resposta

Spark UDF SQL com parâmetro de entrada complexo

Estou tentando usar UDF com o tipo de entrada Array of struct. Eu tenho a seguinte estrutura de dados, isso é apenas parte relevante de uma estrutura maior |--investments: array (nullable = true) | |-- element: struct (containsNull = true) | | ...

2 a resposta

Não é possível importar o sqlContext.implicits._ sem um erro pelo Jupyter

Quando tento usar oimport sqlContext.implicits._ no meu notebook Jupyter, recebo o seguinte erro: Name: Compile Error Message: <console>:25: error: stable identifier required, but $iwC.this.$VAL10.sqlContext.implicits found. import ...