Resultados da pesquisa a pedido "apache-spark-dataset"
Como converter DataFrame para Dataset no Apache Spark em Java?
Posso converter o DataFrame para o Dataset no Scala com muita facilidade: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchemamas na versão Java não sei como converter ...
Como criar um conjunto de dados da classe personalizada Person?
Eu estava tentando criar umDataset em Java, então escrevo o seguinte código: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset = sqlContext.createDataset(list, ...
Qual é a diferença entre Spark DataSet e RDD
Ainda estou lutando para entender todo o poder dos conjuntos de dados Spark recentemente introduzidos. Existem práticas recomendadas de quando usar RDDs e quando usar conjuntos de dados? Na ...
API do conjunto de dados Spark - ingressar
Estou tentando usar o SparkConjunto de dados [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]API, mas estou tendo alguns problemas ao fazer uma associação simples. Digamos que eu tenho dois conjuntos de dados com ...
Como armazenar objetos personalizados no conjunto de dados?
De acordo comApresentando conjuntos de dados Spark [https://databricks.com/blog/2016/01/04/introducing-spark-datasets.html]: Como esperamos ansiosamente pelo Spark 2.0, planejamos algumas melhorias interessantes para conjuntos de dados, ...
Quando usar a API Spark DataFrame / Dataset e quando usar RDD simples?
O mecanismo de execução Spark SQL DataFrame / Dataset possui várias otimizações de tempo e espaço extremamente eficientes (por exemplo, InternalRow e expressão codeGen). De acordo com muitas documentações, parece ser uma opção melhor que o RDD ...
Conjunto de dados Spark, selecione com a coluna typed
Olhando para oselect() No Spark DataSet, existem várias assinaturas de funções geradas: (c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....)Isso parece sugerir que eu deveria poder referenciar os membros do MyClass diretamente e ...
Spark / Scala: preencha nan com a última boa observação
Estou usando o spark 2.0.1 e quero preencher os valores nan com o último valor conhecido bom na coluna. A única referência para a faísca que eu pude encontrarSpark / Scala: preenchimento avançado com última ...
Conjunto de dados Spark 2.0 vs DataFrame
começando com o spark 2.0.1 eu tenho algumas perguntas. Eu li muita documentação, mas até agora não consegui encontrar respostas suficientes: Qual é a diferença entredf.select("foo")df.select($"foo")eu entendi ...
Como obter chaves e valores da coluna MapType no SparkSQL DataFrame
Eu tenho dados em um arquivo de parquet que possui 2 campos:object_id: String ealpha: Map<>. Ele é lido em um quadro de dados no sparkSQL e o esquema se parece com o seguinte: scala> alphaDF.printSchema() root |-- object_id: string (nullable = ...