Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Transformação no estilo pandas de dados agrupados no PySpark DataFrame

Se tivermos um quadro de dados do Pandas que consiste em uma coluna de categorias e uma coluna de valores, podemos remover a média em cada categoria, fazendo o seguinte: df["DemeanedValues"] = df.groupby("Category")["Values"].transform(lambda g: ...

2 a resposta

Criando histogramas em bin no Spark

Suponha que eu possua um dataframe (df) (Pandas) ou RDD (Spark) com as duas colunas a seguir: timestamp, data 12345.0 10 12346.0 12No Pandas, posso criar um histograma com bin de diferentes comprimentos de bin com bastante facilidade. Por ...

1 a resposta

Personalizar o Formulário de Distância do K-means no Apache Spark Python

Agora estou usando o K-means para agrupar e seguireste tutorial [http://spark.apache.org/docs/latest/mllib-clustering.html]eAPI [https://spark.apache.org/docs/1.0.0/api/python/pyspark.mllib.clustering-module.html] . Mas quero usar uma fórmula ...

2 a resposta

Como calcular a mediana no spark sqlContext para a coluna do tipo de dados double

Eu dei a tabela de amostra. Desejo obter a mediana da coluna "valor" para cada coluna "origem" do grupo. Onde a coluna de origem é de String DataType, a coluna de valor é de double DataType scala> sqlContext.sql("SELECT * from tTab order by ...

1 a resposta

Esquema de Particionamento Padrão no Spark

Quando executo o comando abaixo: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> ...

2 a resposta

Como converter uma coluna WrappedArray no spark dataframe para Strings?

Estou tentando converter uma coluna que contém Array [String] para String, mas sempre recebo esse erro org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 78.0 failed 4 times, most recent failure: Lost task 0.3 in ...

1 a resposta

O que significa "Estágio ignorado" na interface da web do Apache Spark?

Da minha interface do Spark. O que significa ignorar? [/imgs/cyvd1.png]

4 a resposta

Como medir o tempo de execução de uma consulta no Spark

Preciso medir o tempo de execução da consulta no Apache spark (Bluemix). O que eu tentei: import time startTimeQuery = time.clock() df = sqlContext.sql(query) df.show() endTimeQuery = time.clock() runTimeQuery = endTimeQuery - startTimeQueryÉ um ...

1 a resposta

Tempo de espera de 100 minutos do trabalho do SparkR

Eu escrevi um script sparkR um pouco complexo e o execute usando o envio de spark. O que o script basicamente faz é ler uma grande tabela de colméia / impala com base em parquet, linha por linha, e gerar um novo arquivo com o mesmo número de ...

1 a resposta

Por que meu Spark é mais lento que o Python puro? Comparação de desempenho

Acenda o novato aqui. Tentei fazer alguma ação dos pandas no meu quadro de dados usando o Spark e, surpreendentemente, é mais lento que o Python puro (ou seja, usando o pacote pandas no Python). Aqui está o que eu fiz: 1) No ...