Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Como evitar a otimização do Spark

Às vezes, o Spark "otimiza" um quadro de dados de maneira ineficiente. Considere o seguinte exemplo no Spark 2.1 (também pode ser reproduzido no Spark 1.6): val df = sparkContext.parallelize((1 to ...

2 a resposta

Como converter um DataFrame simples em um DataSet Spark Scala com classe de caso?

Estou tentando converter um DataFrame simples em um DataSet do exemplo no Spark: https://spark.apache.org/docs/latest/sql-programming-guide.html [https://spark.apache.org/docs/latest/sql-programming-guide.html] case class Person(name: String, ...

2 a resposta

Como saber qual consulta de contagem é a mais rápida?

Eu estive explorando otimizações de consulta nas versões recentes do Spark SQL 2.3.0-SNAPSHOT e notei diferentes planos físicos para consultas semanticamente idênticas. Vamos supor que eu precise contar o número de linhas no seguinte conjunto ...

3 a resposta

Versões incompatíveis do Spark2.1.0 Jackson 2.7.6

Estou tentando executar um exemplo de faísca simples no intellij, mas recebo o erro assim: Exception in thread "main" java.lang.ExceptionInInitializerError at org.apache.spark.SparkContext.withScope(SparkContext.scala:701) ...

1 a resposta

Erro no Pipeline do Spark

Estou tentando executar um modelo de regressão logística multinomial from pyspark.sql import SparkSession spark = SparkSession.builder.appName('prepare_data').getOrCreate() from pyspark.sql.types import * spark.sql("DROP TABLE IF EXISTS ...

2 a resposta

Como fazer o oposto de explodir no PySpark?

Digamos que eu tenho umDataFrame com uma coluna para usuários e outra coluna para as palavras que eles escreveram: Row(user='Bob', word='hello') Row(user='Bob', word='world') Row(user='Mary', word='Have') Row(user='Mary', word='a') ...

2 a resposta

Como dinamizar em várias colunas no Spark SQL?

Eu preciso dinamizar mais de uma coluna em um dataframe pyspark. Dataframe de amostra, >>> d ...

4 a resposta

obter tipo de dados da coluna usando o pyspark

Estamos lendo dados do MongoDBCollection. Collection A coluna possui dois valores diferentes (por exemplo:(bson.Int64,int) (int,float) ) Estou tentando obter um tipo de dados usando o pyspark. Meu problema é que algumas colunas têm tipos de ...

2 a resposta

Como agregar dados em intervalos (bucketize)?

Eu tenho uma mesa como +---------------+------+ |id | value| +---------------+------+ | 1|118.0| | 2|109.0| | 3|113.0| | 4| 82.0| | 5| 60.0| | 6|111.0| | 7|107.0| | 8| 84.0| | 9| 91.0| | 10|118.0| +---------------+------+ans gostaria de agregar ...

4 a resposta

O teste SBT não funciona no teste de faísca

Eu tenho uma função simples de faísca para testar a janela DF: import org.apache.spark.sql.{DataFrame, SparkSession} object ScratchPad { def main(args: Array[String]): Unit = { val spark ...