Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Como adicionar uma coluna à estrutura explodida no Spark?

Digamos que tenho os seguintes dados: {"id":1, "payload":[{"foo":1, "lol":2},{"foo":2, "lol":2}]}Gostaria de explodir a carga útil e adicionar uma coluna a ela, assim: df = df.select('id', F.explode('payload').alias('data')) df ...

1 a resposta

Dependências de acesso disponíveis no Scala, mas não no PySpark

Estou tentando acessar as dependências de um RDD. No Scala, é um código bastante simples: scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2) myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy at <console>:24 ...

2 a resposta

Dataframe do Spark: Pivot e Grupo com base em colunas

Eu tenho o quadro de dados de entrada abaixo, com ID, aplicativo e cliente Dataframe de entrada +--------------------+-----+---------+ | id|app |customer | +--------------------+-----+---------+ |id1 | fw| WM | |id1 | fw| CS | |id2 | fw| CS | ...

2 a resposta

Como obter os valores no DataFrame com o DataType correto?

Quando tentei obter alguns valores em umDataFrame, gostar: df.select("date").head().get(0) // type: AnyO tipo de resultado éAny, o que não é esperado. Desde umdataframe contém oschema dos dados, deve conhecer aDataType para cadacolumn, então, ...

1 a resposta

Os TensorFrames não funcionam com o Tensorflow na Data Science Experience

Este é um acompanhamento deesta [https://stackoverflow.com/questions/44120979/how-do-i-implement-the-tensorframes-spark-package-on-data-science-experience] Pergunta, questão. Importei os seguintes frascos para o meu ...

2 a resposta

Spark Scala Dividir o quadro de dados em igual número de linhas

Eu tenho um Dataframe e desejo dividi-lo em um número igual de linhas. Em outras palavras, quero uma lista de quadros de dados em que cada um seja um subconjunto separado do quadro de dados original. Digamos que o quadro de dados de entrada ...

1 a resposta

Como particionar (igualmente) dados do array no spark dataframe

Eu tenho um quadro de dados do seguinte formulário: import scala.util.Random val localData = (1 to 100).map(i => (i,Seq.fill(Math.abs(Random.nextGaussian()*100).toInt)(Random.nextDouble))) val df = sc.parallelize(localData).toDF("id","data") |-- ...

2 a resposta

Como criar uma fonte de dados de streaming personalizada?

Eu tenho um leitor personalizado para o Spark Streaming que lê dados do WebSocket. Vou tentar o Spark Structured Streaming. Como criar uma fonte de dados de streaming no Spark Structured Streaming?

1 a resposta

spark 2.3.0, parquet 1.8.2 - as estatísticas para um campo binário não existem no arquivo resultante da gravação do spark?

No ramo mestre do spark - tentei escrever uma única coluna com "a", "b", "c" no arquivo em parquetf1 scala> List("a", "b", "c").toDF("field1").coalesce(1).write.parquet("f1")Mas o arquivo salvo não possui estatísticas (mín., Máx.) $ ls ...

1 a resposta

Erro ao transmitir dados de um Dataframe para um ML VectorIndexerModel existente

Eu tenho um Dataframe que eu quero usar para previsão com um modelo existente. Eu recebo um erro ao usar o método de transformação do meu modelo. É assim que eu processo os dados de treinamento. forecast.printSchema()O esquema do meu ...