Resultados da pesquisa a pedido "apache-spark"
Criar nova coluna com função no Spark Dataframe
Estou tentando descobrir a nova API de dataframe no Spark. parece um bom passo à frente, mas com problemas para fazer algo que deve ser bem simples. Eu tenho um quadro de dados com 2 colunas, "ID" e "Valor". Como um exemplo genérico, digamos que ...
Como executar vários trabalhos em um Sparkcontext a partir de threads separados no PySpark?
Entende-se na documentação do Spark sobreProgramação dentro de um aplicativo [http://spark.apache.org/docs/latest/job-scheduling.html]: Dentro de um determinado aplicativo Spark (instância SparkContext), vários trabalhos paralelos podem ser ...
Como dinamizar o DataFrame?
Estou começando a usar o Spark DataFrames e preciso poder dinamizar os dados para criar várias colunas de uma coluna com várias linhas. Existe funcionalidade embutida para isso no Scalding e acredito no Pandas em Python, mas não consigo encontrar ...
Remodelagem / rotação de dados no Spark RDD e / ou Spark DataFrames
Eu tenho alguns dados no seguinte formato (RDD ou Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...
Calculando a duração subtraindo duas colunas de data e hora no formato de sequência
Eu tenho um Spark Dataframe no qual consiste em uma série de datas: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd ...
Zip com DataFrame-ified
Estou tentando resolver o problema antigo de adicionar um número de sequência a um conjunto de dados. Estou trabalhando com DataFrames e parece não haver DataFrame equivalente aRDD.zipWithIndex. Por outro lado, o seguinte funciona mais ou menos ...
Hadoop Erro "Não foi possível carregar a biblioteca nativo-hadoop para sua plataforma" no docker-spark?
estou usandodocker-spark [https://github.com/sequenceiq/docker-spark]. Depois de iniciarspark-shell, gera: 15/05/21 04:28:22 DEBUG NativeCodeLoader: Failed to load native-hadoop with error: java.lang.UnsatisfiedLinkError:no hadoop in ...
Deserializador Avro Kafka do Spark Python
Eu criei um fluxo kafka em um aplicativo python spark e posso analisar qualquer texto que o atravesse. kafkaStream = KafkaUtils.createStream(ssc, zkQuorum, "spark-streaming-consumer", {topic: 1})Quero alterar isso para poder analisar mensagens ...
Como classificar por coluna em ordem decrescente no Spark SQL?
eu tenteidf.orderBy("col1").show(10) mas ordenou em ordem crescente.df.sort("col1").show(10) também classifica em ordem decrescente. Eu olhei no stackoverflow e as respostas que encontrei estavam todas desatualizadas oureferido aos ...
O envio do Spark falha com java.lang.NoSuchMethodError: scala.Predef $. $ Conforms () Lscala / Predef $$ menos $ colon $ less;
Estou usando a versão de pré-construção do spark 1.3.1 spark-1.3.1-bin-hadoop2.6.tgz Exceção no encadeamento "main" java.lang.NoSuchMethodError: scala.Predef $. $ Conforms () Lscala / Predef $ menos $ colon $ less; em org.apache.spark.util.Utils ...