Resultados da pesquisa a pedido "apache-spark-sql"
Spark Scala: Como converter Dataframe [vetor] para DataFrame [f1: Duplo,…, fn: Duplo)]
Acabei de usar o Standard Scaler para normalizar meus recursos para um aplicativo ML. Depois de selecionar os recursos dimensionados, desejo convertê-lo novamente em um quadro de dados de Doubles, embora o comprimento dos meus vetores seja ...
Leia JSON com várias linhas no Apache Spark
Eu estava tentando usar um arquivo JSON como um pequeno banco de dados. Depois de criar uma tabela de modelos no DataFrame, consultei-a com SQL e obtive uma exceção. Aqui está o meu código: val df = sqlCtx.read.json("/path/to/user.json") ...
Crie um quadro de dados no pyspark que contenha uma única coluna de tuplas
Eu tenho um RDD que contém o seguinte [('coluna 1', valor), ('coluna 2', valor), ('coluna 3', valor), ..., ('coluna 100', valor)]. Quero criar um quadro de dados que contenha uma única coluna com tuplas. O mais próximo que cheguei é: schema = ...
Operador de comparação no PySpark (não é igual a /! =)
Estou tentando obter todas as linhas em um quadro de dados em que dois sinalizadores são definidos como '1' e, posteriormente, todos aqueles em que apenas um de dois está definido como '1' e o outroNÃO IGUALpara '1' Com o esquema a seguir (três ...
Problemas ao experimentar o exemplo no Spark-shell
Queria experimentar o Spark 2.0, mas quando tentei executar o seguinte código ...
Spark UDF SQL com parâmetro de entrada complexo
Estou tentando usar UDF com o tipo de entrada Array of struct. Eu tenho a seguinte estrutura de dados, isso é apenas parte relevante de uma estrutura maior |--investments: array (nullable = true) | |-- element: struct (containsNull = true) | | ...
Particionando por várias colunas no Spark SQL
Com as funções de janela do Spark SQL, preciso particionar por várias colunas para executar minhas consultas de dados, da seguinte maneira: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) No momento, não tenho um ...
Arquivo de configuração para definir a estrutura do esquema JSON no PySpark
Eu criei um aplicativo PySpark que lê o arquivo JSON em um dataframe por meio de um esquema definido. amostra de código abaixo schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), True), ]) df= ...
Não é possível importar o sqlContext.implicits._ sem um erro pelo Jupyter
Quando tento usar oimport sqlContext.implicits._ no meu notebook Jupyter, recebo o seguinte erro: Name: Compile Error Message: <console>:25: error: stable identifier required, but $iwC.this.$VAL10.sqlContext.implicits found. import ...
argmax nos Spark DataFrames: como recuperar a linha com o valor máximo
Dado um Spark DataFramedf, Quero encontrar o valor máximo em uma determinada coluna numérica'values'e obtenha as linhas em que esse valor foi atingido. Claro que posso fazer isso: # it doesn't matter if I use scala or python, # since I hope I ...