Resultados da pesquisa a pedido "apache-spark"
Como o Spark alcança o paralelismo dentro de uma tarefa em máquinas com vários núcleos ou hiperencadeados
Eu tenho lido e tentado entender como o framework Spark usa seus núcleos emEstar sozinhomodo. De acordo com a documentação do Spark, o parâmetro "spark.task.cpus "" é definido como 1 por padrão, o que significa o número de núcleos a ...
Como executar uma instrução Switch com os quadros de dados Apache Spark (Python)
Estou tentando executar uma operação nos meus dados em que um determinado valor será mapeado para uma lista de valores predeterminados, se corresponder a um dos critérios, ou para um valor de retorno caso contrário. Este seria o SQL ...
Como modificar um Spark Dataframe com uma estrutura aninhada complexa?
Eu tenho uma estrutura complexa de DataFrame e gostaria de anular uma coluna facilmente. Criei classes implícitas que conectam funcionalidade e abordam facilmente estruturas 2D DataFrame, mas uma vez que o DataFrame se torna mais complicado com ...
Soma operação no PySpark DataFrame dando TypeError quando o tipo é bom
Eu tenho esse DataFrame no PySpark (este é o resultado de uma captura (3), o dataframe é muito grande): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]o mesmoproprietário terá mais ...
faísca falha no windows: <console>: 16: erro: não encontrado: valor sqlContext
Eu instalo o spark no windows, mas ele não foi executado, mostrando o erro abaixo: <console>:16: error: not found: value sqlContext import sqlContext.implicits._ ^ <console>:16: error: not found: value sqlContext import sqlContext.sql ^Tentei os ...
Gere um Spark StructType / Schema a partir de uma classe de caso
Se eu quisesse criar umStructType (ou seja, umDataFrame.schema) de umcase class, existe uma maneira de fazer isso sem criar umDataFrame? Eu posso fazer facilmente: case class TestCase(id: Long) val schema = Seq[TestCase]().toDF.schemaMas ...
Como associar dois DataFrames no Scala e Apache Spark?
Existem dois DataFrames (Scala, Apache Spark 1.6.1) 1) Partidas MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon2) Dados Pessoais Player | BirthYear ...
obter tópico da mensagem kafka no spark
Em nosso trabalho de streaming de faísca, lemos mensagens em streaming de kafka. Para isso, usamos oKafkaUtils.createDirectStream API que retornaJavaPairInputDStreamfrom. As mensagens são lidas do kafka (de três tópicos - test1, test2, test3) ...
Spark: Tarefa não serializável para UDF no DataFrame
eu receboorg.apache.spark.SparkException: Task not serializable quando tento executar o seguinte no Spark 1.4.1: import java.sql.{Date, Timestamp} import java.text.SimpleDateFormat object ConversionUtils { val iso8601 = ...
O que o Exception: Randomness do hash da string deve ser desativado via PYTHONHASHSEED no pyspark?
Estou tentando criar um dicionário a partir de uma lista no pyspark. Eu tenho a seguinte lista de listas: rawPositionsDá [[1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', 3.0, 3904.125, 390412.5], [1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', ...