Resultados da pesquisa a pedido "spark-dataframe"

1 a resposta

Grupo de quadros de dados do Spark

Eu estou tentando fazer alguma análise sobre conjuntos. Eu tenho um conjunto de dados de exemplo que se parece com isso: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}Tudo o que existe é um único campo ...

2 a resposta

Como melhorar o desempenho de tarefas lentas do Spark usando a conexão DataFrame e JDBC?

Estou tentando acessar uma tabela Teradata de tamanho médio (~ 100 milhões de linhas) via JDBC no modo autônomo em um único nó (local [*]). Estou usando o Spark 1.4.1. e é configurado em uma máquina muito poderosa (2 cpu, 24 núcleos, 126G ...

1 a resposta

Como filtrar um spark dataframe contra outro dataframe

Estou tentando filtrar um dataframe contra outro: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Agora eu quero ...

3 a resposta

Convertendo RDD [org.apache.spark.sql.Row] para RDD [org.apache.spark.mllib.linalg.Vector]

Eu sou relativamente novo no Spark e Scala. Estou começando com o seguinte quadro de dados (coluna única composta por um denso vetor de duplas): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...

9 a resposta

Melhor maneira de obter o valor máximo em uma coluna de quadro de dados Spark

Estou tentando descobrir a melhor maneira de obter o maior valor em uma coluna de quadro de dados Spark. Considere o seguinte exemplo: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() O que cria: +---+---+ | A| ...

0 a resposta

SparkR: split-apply-combine no estilo dplyr no DataFrame

Sob o paradigma RDD anterior, eu poderia especificar uma chave e, em seguida, mapear uma operação para os elementos RDD correspondentes a cada chave. Não vejo uma maneira clara de fazer isso com o DataFrame no SparkR a partir da 1.5.1. O que eu ...

3 a resposta

Achatar Dataframe Spark aninhado

Existe uma maneira de nivelar um Spark Dataframe arbitrariamente aninhado? A maior parte do trabalho que estou vendo é escrita para um esquema específico e eu gostaria de poder achatar genericamente um Dataframe com diferentes tipos aninhados ...

2 a resposta

Como converter DataFrame para Dataset no Apache Spark em Java?

Posso converter o DataFrame para o Dataset no Scala com muita facilidade: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchemamas na versão Java não sei como converter ...

3 a resposta

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id já está definido

Estou usando o spark 1.6 e deparo com o problema acima quando executo o seguinte código: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import ...

3 a resposta

Spark: adicione coluna ao dataframe condicionalmente

Estou tentando pegar meus dados de entrada: A B C -------------- 4 blah 2 2 3 56 foo 3E adicione uma coluna ao final com base em se B está vazio ou não: A B C D -------------------- 4 blah 2 1 2 3 0 56 foo 3 1Eu posso fazer isso facilmente ...