Resultados da pesquisa a pedido "apache-spark-sql"

2 a resposta

Spark Scala: Como converter Dataframe [vetor] para DataFrame [f1: Duplo,…, fn: Duplo)]

Acabei de usar o Standard Scaler para normalizar meus recursos para um aplicativo ML. Depois de selecionar os recursos dimensionados, desejo convertê-lo novamente em um quadro de dados de Doubles, embora o comprimento dos meus vetores seja ...

2 a resposta

Leia JSON com várias linhas no Apache Spark

Eu estava tentando usar um arquivo JSON como um pequeno banco de dados. Depois de criar uma tabela de modelos no DataFrame, consultei-a com SQL e obtive uma exceção. Aqui está o meu código: val df = sqlCtx.read.json("/path/to/user.json") ...

1 a resposta

Crie um quadro de dados no pyspark que contenha uma única coluna de tuplas

Eu tenho um RDD que contém o seguinte [('coluna 1', valor), ('coluna 2', valor), ('coluna 3', valor), ..., ('coluna 100', valor)]. Quero criar um quadro de dados que contenha uma única coluna com tuplas. O mais próximo que cheguei é: schema = ...

2 a resposta

Operador de comparação no PySpark (não é igual a /! =)

Estou tentando obter todas as linhas em um quadro de dados em que dois sinalizadores são definidos como '1' e, posteriormente, todos aqueles em que apenas um de dois está definido como '1' e o outroNÃO IGUALpara '1' Com o esquema a seguir (três ...

1 a resposta

Problemas ao experimentar o exemplo no Spark-shell

Queria experimentar o Spark 2.0, mas quando tentei executar o seguinte código ...

2 a resposta

Spark UDF SQL com parâmetro de entrada complexo

Estou tentando usar UDF com o tipo de entrada Array of struct. Eu tenho a seguinte estrutura de dados, isso é apenas parte relevante de uma estrutura maior |--investments: array (nullable = true) | |-- element: struct (containsNull = true) | | ...

1 a resposta

Particionando por várias colunas no Spark SQL

Com as funções de janela do Spark SQL, preciso particionar por várias colunas para executar minhas consultas de dados, da seguinte maneira: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) No momento, não tenho um ...

1 a resposta

Arquivo de configuração para definir a estrutura do esquema JSON no PySpark

Eu criei um aplicativo PySpark que lê o arquivo JSON em um dataframe por meio de um esquema definido. amostra de código abaixo schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), True), ]) df= ...

2 a resposta

Não é possível importar o sqlContext.implicits._ sem um erro pelo Jupyter

Quando tento usar oimport sqlContext.implicits._ no meu notebook Jupyter, recebo o seguinte erro: Name: Compile Error Message: <console>:25: error: stable identifier required, but $iwC.this.$VAL10.sqlContext.implicits found. import ...

2 a resposta

argmax nos Spark DataFrames: como recuperar a linha com o valor máximo

Dado um Spark DataFramedf, Quero encontrar o valor máximo em uma determinada coluna numérica'values'e obtenha as linhas em que esse valor foi atingido. Claro que posso fazer isso: # it doesn't matter if I use scala or python, # since I hope I ...