Resultados da pesquisa a pedido "apache-spark"

3 a resposta

Criar nova coluna com função no Spark Dataframe

Estou tentando descobrir a nova API de dataframe no Spark. parece um bom passo à frente, mas com problemas para fazer algo que deve ser bem simples. Eu tenho um quadro de dados com 2 colunas, "ID" e "Valor". Como um exemplo genérico, digamos que ...

2 a resposta

Como executar vários trabalhos em um Sparkcontext a partir de threads separados no PySpark?

Entende-se na documentação do Spark sobreProgramação dentro de um aplicativo [http://spark.apache.org/docs/latest/job-scheduling.html]: Dentro de um determinado aplicativo Spark (instância SparkContext), vários trabalhos paralelos podem ser ...

6 a resposta

Como dinamizar o DataFrame?

Estou começando a usar o Spark DataFrames e preciso poder dinamizar os dados para criar várias colunas de uma coluna com várias linhas. Existe funcionalidade embutida para isso no Scalding e acredito no Pandas em Python, mas não consigo encontrar ...

6 a resposta

Remodelagem / rotação de dados no Spark RDD e / ou Spark DataFrames

Eu tenho alguns dados no seguinte formato (RDD ou Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...

6 a resposta

Calculando a duração subtraindo duas colunas de data e hora no formato de sequência

Eu tenho um Spark Dataframe no qual consiste em uma série de datas: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd ...

5 a resposta

Zip com DataFrame-ified

Estou tentando resolver o problema antigo de adicionar um número de sequência a um conjunto de dados. Estou trabalhando com DataFrames e parece não haver DataFrame equivalente aRDD.zipWithIndex. Por outro lado, o seguinte funciona mais ou menos ...

1 a resposta

Hadoop Erro "Não foi possível carregar a biblioteca nativo-hadoop para sua plataforma" no docker-spark?

estou usandodocker-spark [https://github.com/sequenceiq/docker-spark]. Depois de iniciarspark-shell, gera: 15/05/21 04:28:22 DEBUG NativeCodeLoader: Failed to load native-hadoop with error: java.lang.UnsatisfiedLinkError:no hadoop in ...

2 a resposta

Deserializador Avro Kafka do Spark Python

Eu criei um fluxo kafka em um aplicativo python spark e posso analisar qualquer texto que o atravesse. kafkaStream = KafkaUtils.createStream(ssc, zkQuorum, "spark-streaming-consumer", {topic: 1})Quero alterar isso para poder analisar mensagens ...

6 a resposta

Como classificar por coluna em ordem decrescente no Spark SQL?

eu tenteidf.orderBy("col1").show(10) mas ordenou em ordem crescente.df.sort("col1").show(10) também classifica em ordem decrescente. Eu olhei no stackoverflow e as respostas que encontrei estavam todas desatualizadas oureferido aos ...

1 a resposta

O envio do Spark falha com java.lang.NoSuchMethodError: scala.Predef $. $ Conforms () Lscala / Predef $$ menos $ colon $ less;

Estou usando a versão de pré-construção do spark 1.3.1 spark-1.3.1-bin-hadoop2.6.tgz Exceção no encadeamento "main" java.lang.NoSuchMethodError: scala.Predef $. $ Conforms () Lscala / Predef $ menos $ colon $ less; em org.apache.spark.util.Utils ...