Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Como o Spark alcança o paralelismo dentro de uma tarefa em máquinas com vários núcleos ou hiperencadeados

Eu tenho lido e tentado entender como o framework Spark usa seus núcleos emEstar sozinhomodo. De acordo com a documentação do Spark, o parâmetro "spark.task.cpus "" é definido como 1 por padrão, o que significa o número de núcleos a ...

1 a resposta

Como executar uma instrução Switch com os quadros de dados Apache Spark (Python)

Estou tentando executar uma operação nos meus dados em que um determinado valor será mapeado para uma lista de valores predeterminados, se corresponder a um dos critérios, ou para um valor de retorno caso contrário. Este seria o SQL ...

1 a resposta

Como modificar um Spark Dataframe com uma estrutura aninhada complexa?

Eu tenho uma estrutura complexa de DataFrame e gostaria de anular uma coluna facilmente. Criei classes implícitas que conectam funcionalidade e abordam facilmente estruturas 2D DataFrame, mas uma vez que o DataFrame se torna mais complicado com ...

1 a resposta

Soma operação no PySpark DataFrame dando TypeError quando o tipo é bom

Eu tenho esse DataFrame no PySpark (este é o resultado de uma captura (3), o dataframe é muito grande): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]o mesmoproprietário terá mais ...

3 a resposta

faísca falha no windows: <console>: 16: erro: não encontrado: valor sqlContext

Eu instalo o spark no windows, mas ele não foi executado, mostrando o erro abaixo: <console>:16: error: not found: value sqlContext import sqlContext.implicits._ ^ <console>:16: error: not found: value sqlContext import sqlContext.sql ^Tentei os ...

4 a resposta

Gere um Spark StructType / Schema a partir de uma classe de caso

Se eu quisesse criar umStructType (ou seja, umDataFrame.schema) de umcase class, existe uma maneira de fazer isso sem criar umDataFrame? Eu posso fazer facilmente: case class TestCase(id: Long) val schema = Seq[TestCase]().toDF.schemaMas ...

3 a resposta

Como associar dois DataFrames no Scala e Apache Spark?

Existem dois DataFrames (Scala, Apache Spark 1.6.1) 1) Partidas MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon2) Dados Pessoais Player | BirthYear ...

2 a resposta

obter tópico da mensagem kafka no spark

Em nosso trabalho de streaming de faísca, lemos mensagens em streaming de kafka. Para isso, usamos oKafkaUtils.createDirectStream API que retornaJavaPairInputDStreamfrom. As mensagens são lidas do kafka (de três tópicos - test1, test2, test3) ...

1 a resposta

Spark: Tarefa não serializável para UDF no DataFrame

eu receboorg.apache.spark.SparkException: Task not serializable quando tento executar o seguinte no Spark 1.4.1: import java.sql.{Date, Timestamp} import java.text.SimpleDateFormat object ConversionUtils { val iso8601 = ...

2 a resposta

O que o Exception: Randomness do hash da string deve ser desativado via PYTHONHASHSEED no pyspark?

Estou tentando criar um dicionário a partir de uma lista no pyspark. Eu tenho a seguinte lista de listas: rawPositionsDá [[1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', 3.0, 3904.125, 390412.5], [1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', ...