Resultados da pesquisa a pedido "apache-spark"
Como definir uma variável de ambiente personalizada no EMR para estar disponível para um aplicativo Spark
Preciso definir uma variável de ambiente personalizada no EMR para estar disponível ao executar um aplicativo spark. Eu tentei adicionar isso: ... --configurations '[ { "Classification": "spark-env", "Configurations": [ { "Classification": ...
Converter tabela mysql em conjunto de dados spark é muito lento comparado com o mesmo do arquivo csv
Eu tenho o arquivo csv no Amazon s3 com 62mb de tamanho (114 000 linhas). Estou convertendo-o em conjunto de dados spark e obtendo as primeiras 500 linhas dele. O código é o seguinte; DataFrameReader df = new ...
O cache ordenado do Spark DataFrame cria trabalho indesejado
Desejo converter um RDD em um DataFrame e quero armazenar em cache os resultados do RDD: from pyspark.sql import * from pyspark.sql.types import * import pyspark.sql.functions as fn schema = StructType([StructField('t', ...
Não é possível resolver a coluna (nome numérico da coluna) no Spark Dataframe
Estes são os meus dados: scala> data.printSchema root |-- 1.0: string (nullable = true) |-- 2.0: string (nullable = true) |-- 3.0: string (nullable = true)Isso não funciona :( scala> ...
Grupo Pyspark Dataframe por filtragem
Eu tenho um quadro de dados como abaixo cust_id req req_met ------- --- ------- 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1Eu tenho que olhar para os clientes, ver quantos requisitos eles têm e ver se eles cumpriram ...
O que é o uso do método addJar () no Spark?
No trabalho do spark, não sei como importar e usar os jars compartilhados pelo métodoSparkContext.addJar(). Parece que esse método é capaz de mover os frascos para algum lugar acessível por outros nós no cluster, mas não sei ...
Conectando a um mestre mestre remoto do Spark - Java / Scala
Eu criei um nó 3 (1 mestre, 2 trabalhadores)Apache Spark cluster na AWS. Sou capaz de enviar trabalhos ao cluster a partir do mestre, mas não consigo fazê-lo funcionar remotamente. /* SimpleApp.scala */ import org.apache.spark.SparkContext ...
Dividir o conteúdo da coluna String no PySpark Dataframe
Eu tenho um quadro de dados pyspark que possui uma coluna contendo seqüências de caracteres. Eu quero dividir esta coluna em palavras Código: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', ...
Dataframe para Dataset que possui o tipo Qualquer
Recentemente, mudei do Spark 1.6 para o Spark 2.X e gostaria de passar, sempre que possível, de Dataframes para Datasets. Eu tentei um código como este case class MyClass(a : Any, ...) val df = ... df.map(x => MyClass(x.get(0), ...))Como você ...
pyspark: Criar coluna MapType a partir de colunas existentes
Preciso criar uma nova coluna do Spark DF MapType com base nas colunas existentes em que o nome da coluna é a chave e o valor é o valor. Como exemplo - eu tenho esse DF: rdd = sc.parallelize([('123k', 1.3, 6.3, 7.6), ('d23d', 1.5, 2.0, 2.2), ...