Resultados da pesquisa a pedido "apache-spark-dataset"

2 a resposta

Como converter DataFrame para Dataset no Apache Spark em Java?

Posso converter o DataFrame para o Dataset no Scala com muita facilidade: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchemamas na versão Java não sei como converter ...

3 a resposta

Como criar um conjunto de dados da classe personalizada Person?

Eu estava tentando criar umDataset em Java, então escrevo o seguinte código: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset = sqlContext.createDataset(list, ...

1 a resposta

Qual é a diferença entre Spark DataSet e RDD

Ainda estou lutando para entender todo o poder dos conjuntos de dados Spark recentemente introduzidos. Existem práticas recomendadas de quando usar RDDs e quando usar conjuntos de dados? Na ...

3 a resposta

API do conjunto de dados Spark - ingressar

Estou tentando usar o SparkConjunto de dados [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]API, mas estou tendo alguns problemas ao fazer uma associação simples. Digamos que eu tenho dois conjuntos de dados com ...

8 a resposta

Como armazenar objetos personalizados no conjunto de dados?

De acordo comApresentando conjuntos de dados Spark [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]: Como esperamos ansiosamente pelo Spark 2.0, planejamos algumas melhorias interessantes para conjuntos de dados, ...

1 a resposta

Quando usar a API Spark DataFrame / Dataset e quando usar RDD simples?

O mecanismo de execução Spark SQL DataFrame / Dataset possui várias otimizações de tempo e espaço extremamente eficientes (por exemplo, InternalRow e expressão codeGen). De acordo com muitas documentações, parece ser uma opção melhor que o RDD ...

2 a resposta

Conjunto de dados Spark, selecione com a coluna typed

Olhando para oselect() No Spark DataSet, existem várias assinaturas de funções geradas: (c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....)Isso parece sugerir que eu deveria poder referenciar os membros do MyClass diretamente e ...

1 a resposta

Spark / Scala: preencha nan com a última boa observação

Estou usando o spark 2.0.1 e quero preencher os valores nan com o último valor conhecido bom na coluna. A única referência para a faísca que eu pude encontrarSpark / Scala: preenchimento avançado com última ...

2 a resposta

Conjunto de dados Spark 2.0 vs DataFrame

começando com o spark 2.0.1 eu tenho algumas perguntas. Eu li muita documentação, mas até agora não consegui encontrar respostas suficientes: Qual é a diferença entredf.select("foo")df.select($"foo")eu entendi ...

1 a resposta

Como obter chaves e valores da coluna MapType no SparkSQL DataFrame

Eu tenho dados em um arquivo de parquet que possui 2 campos:object_id: String ealpha: Map<>. Ele é lido em um quadro de dados no sparkSQL e o esquema se parece com o seguinte: scala> alphaDF.printSchema() root |-- object_id: string (nullable = ...