Resultados da pesquisa a pedido "apache-spark"
Como evitar a otimização do Spark
Às vezes, o Spark "otimiza" um quadro de dados de maneira ineficiente. Considere o seguinte exemplo no Spark 2.1 (também pode ser reproduzido no Spark 1.6): val df = sparkContext.parallelize((1 to ...
Como converter um DataFrame simples em um DataSet Spark Scala com classe de caso?
Estou tentando converter um DataFrame simples em um DataSet do exemplo no Spark: https://spark.apache.org/docs/latest/sql-programming-guide.html [https://spark.apache.org/docs/latest/sql-programming-guide.html] case class Person(name: String, ...
Como saber qual consulta de contagem é a mais rápida?
Eu estive explorando otimizações de consulta nas versões recentes do Spark SQL 2.3.0-SNAPSHOT e notei diferentes planos físicos para consultas semanticamente idênticas. Vamos supor que eu precise contar o número de linhas no seguinte conjunto ...
Versões incompatíveis do Spark2.1.0 Jackson 2.7.6
Estou tentando executar um exemplo de faísca simples no intellij, mas recebo o erro assim: Exception in thread "main" java.lang.ExceptionInInitializerError at org.apache.spark.SparkContext.withScope(SparkContext.scala:701) ...
Erro no Pipeline do Spark
Estou tentando executar um modelo de regressão logística multinomial from pyspark.sql import SparkSession spark = SparkSession.builder.appName('prepare_data').getOrCreate() from pyspark.sql.types import * spark.sql("DROP TABLE IF EXISTS ...
Como fazer o oposto de explodir no PySpark?
Digamos que eu tenho umDataFrame com uma coluna para usuários e outra coluna para as palavras que eles escreveram: Row(user='Bob', word='hello') Row(user='Bob', word='world') Row(user='Mary', word='Have') Row(user='Mary', word='a') ...
Como dinamizar em várias colunas no Spark SQL?
Eu preciso dinamizar mais de uma coluna em um dataframe pyspark. Dataframe de amostra, >>> d ...
obter tipo de dados da coluna usando o pyspark
Estamos lendo dados do MongoDBCollection. Collection A coluna possui dois valores diferentes (por exemplo:(bson.Int64,int) (int,float) ) Estou tentando obter um tipo de dados usando o pyspark. Meu problema é que algumas colunas têm tipos de ...
Como agregar dados em intervalos (bucketize)?
Eu tenho uma mesa como +---------------+------+ |id | value| +---------------+------+ | 1|118.0| | 2|109.0| | 3|113.0| | 4| 82.0| | 5| 60.0| | 6|111.0| | 7|107.0| | 8| 84.0| | 9| 91.0| | 10|118.0| +---------------+------+ans gostaria de agregar ...
O teste SBT não funciona no teste de faísca
Eu tenho uma função simples de faísca para testar a janela DF: import org.apache.spark.sql.{DataFrame, SparkSession} object ScratchPad { def main(args: Array[String]): Unit = { val spark ...