Resultados da pesquisa a pedido "apache-spark"

Atualmente, estou tentando estender um aplicativo Machine Learning que usa Scala e Spark. Estou usando a estrutura de um projeto anterior de Dieterich Lawson que encontrei no ...

apache-spark-mllib pyspark python

1 a resposta

Como agrupar um RDD, com DenseVector como chave, no Spark?

Eu criei um RDD com cada membro sendo um par de valor-chave e a chave sendo umDenseVector e valor sendo umint. por exemplo. [(DenseVector([3,4]),10), (DenseVector([3,4]),20)]Agora eu quero agrupar pela chavek1: DenseVector([3,4]). Espero que o ...

pyspark rdd hive apache-spark-sql

4 a resposta

PySpark: Mapeie um SchemaRDD para um SchemaRDD

Estou carregando um arquivo de objetos JSON como um PySparkSchemaRDD. Eu quero alterar a "forma" dos objetos (basicamente, eu estou achatando-os) e depois inseri-los em uma tabela do Hive. O problema que tenho é que o seguinte retorna ...

apache-spark-sql

2 a resposta

Como acessar tabelas RDD por meio do Spark SQL como um mecanismo de consulta distribuído JDBC?

Várias postagens no stackoverflow têm respostas com informações parciais sobre Como acessar tabelas RDD por meio do Spark SQL como um mecanismo de consulta distribuído JDBC. Então, eu gostaria de fazer as seguintes perguntas para ...

spark-dataframe apache-spark-sql

3 a resposta

Qual é eficiente, Dataframe ou RDD ou hiveql?

Eu sou novato no Apache Spark. Meu trabalho é ler dois arquivos CSV, selecionar algumas colunas específicas, mesclar, agregar e gravar o resultado em um único arquivo CSV. Por exemplo, CSV1name,age,deparment_id ...

java

1 a resposta

Existe uma função de transformação RDD que analisa os elementos vizinhos?

Alguém sabe se existe uma maneira durante uma transformação de examinar os elementos vizinhos em um RDD classificado? Eu sei que posso coletar e, em seguida, executar uma operação como a do exemplo abaixo, no entanto, isso meio que derrota o ...

parquet sparkr r spark-dataframe

0 a resposta

Erro SparkR collect () e head () para Spark DataFrame: argumentos implicam número diferente de linhas

Eu li um arquivo em parquet do sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...

rdd apache-spark-mllib scala apache-spark-sql

1 a resposta

Conversão RDD para LabeledPoint

Se eu tiver um RDD com cerca de 500 colunas e 200 milhões de linhas, eRDD.columns.indexOf("target", 0) mostraInt = 77 que indica que minha variável dependente direcionada está na coluna número 77. Mas não tenho conhecimento suficiente sobre como ...

scala

2 a resposta

Mesclar dois RDDs no Spark Scala

Eu tenho dois RDDs. rdd1 = (String, String) key1, value11 key2, value12 key3, value13rdd2 = (String, String) key2, value22 key3, value23 key4, value24Preciso formar outro RDD com linhas mescladas de rdd1 e rdd2, a saída deve se parecer ...

distributed-computing rdd

9 a resposta

Spark - repartição () vs coalescência ()

De acordo com o Learning Spark Lembre-se de que o reparticionamento dos dados é uma operação bastante cara. O Spark também possui uma versão otimizada da repartição () chamada coalesce () que permite evitar a movimentação de dados, mas apenas se ...

Página 114 do 167

112 113114115 116

Resultados da pesquisa a pedido "apache-spark"

SparkContext não serializável dentro de um objeto complementar

Como agrupar um RDD, com DenseVector como chave, no Spark?

PySpark: Mapeie um SchemaRDD para um SchemaRDD

Tags populares

Como acessar tabelas RDD por meio do Spark SQL como um mecanismo de consulta distribuído JDBC?

Qual é eficiente, Dataframe ou RDD ou hiveql?

Existe uma função de transformação RDD que analisa os elementos vizinhos?

Erro SparkR collect () e head () para Spark DataFrame: argumentos implicam número diferente de linhas

Conversão RDD para LabeledPoint

Mesclar dois RDDs no Spark Scala

Spark - repartição () vs coalescência ()

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares