Resultados da pesquisa a pedido "apache-spark"
Como adicionar uma coluna à estrutura explodida no Spark?
Digamos que tenho os seguintes dados: {"id":1, "payload":[{"foo":1, "lol":2},{"foo":2, "lol":2}]}Gostaria de explodir a carga útil e adicionar uma coluna a ela, assim: df = df.select('id', F.explode('payload').alias('data')) df ...
Dependências de acesso disponíveis no Scala, mas não no PySpark
Estou tentando acessar as dependências de um RDD. No Scala, é um código bastante simples: scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2) myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy at <console>:24 ...
Dataframe do Spark: Pivot e Grupo com base em colunas
Eu tenho o quadro de dados de entrada abaixo, com ID, aplicativo e cliente Dataframe de entrada +--------------------+-----+---------+ | id|app |customer | +--------------------+-----+---------+ |id1 | fw| WM | |id1 | fw| CS | |id2 | fw| CS | ...
Como obter os valores no DataFrame com o DataType correto?
Quando tentei obter alguns valores em umDataFrame, gostar: df.select("date").head().get(0) // type: AnyO tipo de resultado éAny, o que não é esperado. Desde umdataframe contém oschema dos dados, deve conhecer aDataType para cadacolumn, então, ...
Os TensorFrames não funcionam com o Tensorflow na Data Science Experience
Este é um acompanhamento deesta [https://stackoverflow.com/questions/44120979/how-do-i-implement-the-tensorframes-spark-package-on-data-science-experience] Pergunta, questão. Importei os seguintes frascos para o meu ...
Spark Scala Dividir o quadro de dados em igual número de linhas
Eu tenho um Dataframe e desejo dividi-lo em um número igual de linhas. Em outras palavras, quero uma lista de quadros de dados em que cada um seja um subconjunto separado do quadro de dados original. Digamos que o quadro de dados de entrada ...
Como particionar (igualmente) dados do array no spark dataframe
Eu tenho um quadro de dados do seguinte formulário: import scala.util.Random val localData = (1 to 100).map(i => (i,Seq.fill(Math.abs(Random.nextGaussian()*100).toInt)(Random.nextDouble))) val df = sc.parallelize(localData).toDF("id","data") |-- ...
Como criar uma fonte de dados de streaming personalizada?
Eu tenho um leitor personalizado para o Spark Streaming que lê dados do WebSocket. Vou tentar o Spark Structured Streaming. Como criar uma fonte de dados de streaming no Spark Structured Streaming?
spark 2.3.0, parquet 1.8.2 - as estatísticas para um campo binário não existem no arquivo resultante da gravação do spark?
No ramo mestre do spark - tentei escrever uma única coluna com "a", "b", "c" no arquivo em parquetf1 scala> List("a", "b", "c").toDF("field1").coalesce(1).write.parquet("f1")Mas o arquivo salvo não possui estatísticas (mín., Máx.) $ ls ...
Erro ao transmitir dados de um Dataframe para um ML VectorIndexerModel existente
Eu tenho um Dataframe que eu quero usar para previsão com um modelo existente. Eu recebo um erro ao usar o método de transformação do meu modelo. É assim que eu processo os dados de treinamento. forecast.printSchema()O esquema do meu ...