Resultados da pesquisa a pedido "apache-spark-sql"

Acabei de usar o Standard Scaler para normalizar meus recursos para um aplicativo ML. Depois de selecionar os recursos dimensionados, desejo convertê-lo novamente em um quadro de dados de Doubles, embora o comprimento dos meus vetores seja ...

apache-spark json

2 a resposta

Leia JSON com várias linhas no Apache Spark

Eu estava tentando usar um arquivo JSON como um pequeno banco de dados. Depois de criar uma tabela de modelos no DataFrame, consultei-a com SQL e obtive uma exceção. Aqui está o meu código: val df = sqlCtx.read.json("/path/to/user.json") ...

pyspark dataframe apache-spark

1 a resposta

Crie um quadro de dados no pyspark que contenha uma única coluna de tuplas

Eu tenho um RDD que contém o seguinte [('coluna 1', valor), ('coluna 2', valor), ('coluna 3', valor), ..., ('coluna 100', valor)]. Quero criar um quadro de dados que contenha uma única coluna com tuplas. O mais próximo que cheguei é: schema = ...

pyspark null sql apache-spark

2 a resposta

Operador de comparação no PySpark (não é igual a /! =)

Estou tentando obter todas as linhas em um quadro de dados em que dois sinalizadores são definidos como '1' e, posteriormente, todos aqueles em que apenas um de dois está definido como '1' e o outroNÃO IGUALpara '1' Com o esquema a seguir (três ...

scala apache-spark

1 a resposta

Problemas ao experimentar o exemplo no Spark-shell

Queria experimentar o Spark 2.0, mas quando tentei executar o seguinte código ...

apache-spark user-defined-functions dataframe

2 a resposta

Spark UDF SQL com parâmetro de entrada complexo

Estou tentando usar UDF com o tipo de entrada Array of struct. Eu tenho a seguinte estrutura de dados, isso é apenas parte relevante de uma estrutura maior |--investments: array (nullable = true) | |-- element: struct (containsNull = true) | | ...

apache-spark window-functions

1 a resposta

Particionando por várias colunas no Spark SQL

Com as funções de janela do Spark SQL, preciso particionar por várias colunas para executar minhas consultas de dados, da seguinte maneira: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) No momento, não tenho um ...

apache-spark pyspark python

1 a resposta

Arquivo de configuração para definir a estrutura do esquema JSON no PySpark

Eu criei um aplicativo PySpark que lê o arquivo JSON em um dataframe por meio de um esquema definido. amostra de código abaixo schema = StructType([ StructField("domain", StringType(), True), StructField("timestamp", LongType(), True), ]) df= ...

apache-spark amazon-ec2 scala jupyter

2 a resposta

Não é possível importar o sqlContext.implicits._ sem um erro pelo Jupyter

Quando tento usar oimport sqlContext.implicits._ no meu notebook Jupyter, recebo o seguinte erro: Name: Compile Error Message: <console>:25: error: stable identifier required, but $iwC.this.$VAL10.sqlContext.implicits found. import ...

apache-spark

2 a resposta

argmax nos Spark DataFrames: como recuperar a linha com o valor máximo

Dado um Spark DataFramedf, Quero encontrar o valor máximo em uma determinada coluna numérica'values'e obtenha as linhas em que esse valor foi atingido. Claro que posso fazer isso: # it doesn't matter if I use scala or python, # since I hope I ...

Página 3 do 52

1 234 5

Resultados da pesquisa a pedido "apache-spark-sql"

Spark Scala: Como converter Dataframe [vetor] para DataFrame [f1: Duplo,…, fn: Duplo)]

Leia JSON com várias linhas no Apache Spark

Crie um quadro de dados no pyspark que contenha uma única coluna de tuplas

Tags populares

Operador de comparação no PySpark (não é igual a /! =)

Problemas ao experimentar o exemplo no Spark-shell

Spark UDF SQL com parâmetro de entrada complexo

Particionando por várias colunas no Spark SQL

Arquivo de configuração para definir a estrutura do esquema JSON no PySpark

Não é possível importar o sqlContext.implicits._ sem um erro pelo Jupyter

argmax nos Spark DataFrames: como recuperar a linha com o valor máximo

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares