Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Como definir uma variável de ambiente personalizada no EMR para estar disponível para um aplicativo Spark

Preciso definir uma variável de ambiente personalizada no EMR para estar disponível ao executar um aplicativo spark. Eu tentei adicionar isso: ... --configurations '[ { "Classification": "spark-env", "Configurations": [ { "Classification": ...

2 a resposta

Converter tabela mysql em conjunto de dados spark é muito lento comparado com o mesmo do arquivo csv

Eu tenho o arquivo csv no Amazon s3 com 62mb de tamanho (114 000 linhas). Estou convertendo-o em conjunto de dados spark e obtendo as primeiras 500 linhas dele. O código é o seguinte; DataFrameReader df = new ...

1 a resposta

O cache ordenado do Spark DataFrame cria trabalho indesejado

Desejo converter um RDD em um DataFrame e quero armazenar em cache os resultados do RDD: from pyspark.sql import * from pyspark.sql.types import * import pyspark.sql.functions as fn schema = StructType([StructField('t', ...

2 a resposta

Não é possível resolver a coluna (nome numérico da coluna) no Spark Dataframe

Estes são os meus dados: scala> data.printSchema root |-- 1.0: string (nullable = true) |-- 2.0: string (nullable = true) |-- 3.0: string (nullable = true)Isso não funciona :( scala> ...

2 a resposta

Grupo Pyspark Dataframe por filtragem

Eu tenho um quadro de dados como abaixo cust_id req req_met ------- --- ------- 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1Eu tenho que olhar para os clientes, ver quantos requisitos eles têm e ver se eles cumpriram ...

1 a resposta

O que é o uso do método addJar () no Spark?

No trabalho do spark, não sei como importar e usar os jars compartilhados pelo métodoSparkContext.addJar(). Parece que esse método é capaz de mover os frascos para algum lugar acessível por outros nós no cluster, mas não sei ...

2 a resposta

Conectando a um mestre mestre remoto do Spark - Java / Scala

Eu criei um nó 3 (1 mestre, 2 trabalhadores)Apache Spark cluster na AWS. Sou capaz de enviar trabalhos ao cluster a partir do mestre, mas não consigo fazê-lo funcionar remotamente. /* SimpleApp.scala */ import org.apache.spark.SparkContext ...

1 a resposta

Dividir o conteúdo da coluna String no PySpark Dataframe

Eu tenho um quadro de dados pyspark que possui uma coluna contendo seqüências de caracteres. Eu quero dividir esta coluna em palavras Código: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', ...

1 a resposta

Dataframe para Dataset que possui o tipo Qualquer

Recentemente, mudei do Spark 1.6 para o Spark 2.X e gostaria de passar, sempre que possível, de Dataframes para Datasets. Eu tentei um código como este case class MyClass(a : Any, ...) val df = ... df.map(x => MyClass(x.get(0), ...))Como você ...

1 a resposta

pyspark: Criar coluna MapType a partir de colunas existentes

Preciso criar uma nova coluna do Spark DF MapType com base nas colunas existentes em que o nome da coluna é a chave e o valor é o valor. Como exemplo - eu tenho esse DF: rdd = sc.parallelize([('123k', 1.3, 6.3, 7.6), ('d23d', 1.5, 2.0, 2.2), ...