Resultados da pesquisa a pedido "apache-spark"
SparkContext não serializável dentro de um objeto complementar
Atualmente, estou tentando estender um aplicativo Machine Learning que usa Scala e Spark. Estou usando a estrutura de um projeto anterior de Dieterich Lawson que encontrei no ...
Como agrupar um RDD, com DenseVector como chave, no Spark?
Eu criei um RDD com cada membro sendo um par de valor-chave e a chave sendo umDenseVector e valor sendo umint. por exemplo. [(DenseVector([3,4]),10), (DenseVector([3,4]),20)]Agora eu quero agrupar pela chavek1: DenseVector([3,4]). Espero que o ...
PySpark: Mapeie um SchemaRDD para um SchemaRDD
Estou carregando um arquivo de objetos JSON como um PySparkSchemaRDD. Eu quero alterar a "forma" dos objetos (basicamente, eu estou achatando-os) e depois inseri-los em uma tabela do Hive. O problema que tenho é que o seguinte retorna ...
Como acessar tabelas RDD por meio do Spark SQL como um mecanismo de consulta distribuído JDBC?
Várias postagens no stackoverflow têm respostas com informações parciais sobre Como acessar tabelas RDD por meio do Spark SQL como um mecanismo de consulta distribuído JDBC. Então, eu gostaria de fazer as seguintes perguntas para ...
Qual é eficiente, Dataframe ou RDD ou hiveql?
Eu sou novato no Apache Spark. Meu trabalho é ler dois arquivos CSV, selecionar algumas colunas específicas, mesclar, agregar e gravar o resultado em um único arquivo CSV. Por exemplo, CSV1name,age,deparment_id ...
Existe uma função de transformação RDD que analisa os elementos vizinhos?
Alguém sabe se existe uma maneira durante uma transformação de examinar os elementos vizinhos em um RDD classificado? Eu sei que posso coletar e, em seguida, executar uma operação como a do exemplo abaixo, no entanto, isso meio que derrota o ...
Erro SparkR collect () e head () para Spark DataFrame: argumentos implicam número diferente de linhas
Eu li um arquivo em parquet do sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...
Conversão RDD para LabeledPoint
Se eu tiver um RDD com cerca de 500 colunas e 200 milhões de linhas, eRDD.columns.indexOf("target", 0) mostraInt = 77 que indica que minha variável dependente direcionada está na coluna número 77. Mas não tenho conhecimento suficiente sobre como ...
Mesclar dois RDDs no Spark Scala
Eu tenho dois RDDs. rdd1 = (String, String) key1, value11 key2, value12 key3, value13rdd2 = (String, String) key2, value22 key3, value23 key4, value24Preciso formar outro RDD com linhas mescladas de rdd1 e rdd2, a saída deve se parecer ...
Spark - repartição () vs coalescência ()
De acordo com o Learning Spark Lembre-se de que o reparticionamento dos dados é uma operação bastante cara. O Spark também possui uma versão otimizada da repartição () chamada coalesce () que permite evitar a movimentação de dados, mas apenas se ...