Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Uso do método spark as DataFrame “as”

estou olhando paraspark.sql.DataFrame [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame] documentação. Há sim def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0Qual é ...

4 a resposta

Como converter DataFrame para Json?

Eu tenho um arquivo Json enorme, uma pequena parte dele da seguinte maneira: { "socialNews": [{ "adminTagIds": "", "fileIds": "", "departmentTagIds": "", ........ ........ "comments": [{ "commentId": "", "newsId": "", "entityId": "", .... .... ...

3 a resposta

Qual é eficiente, Dataframe ou RDD ou hiveql?

Eu sou novato no Apache Spark. Meu trabalho é ler dois arquivos CSV, selecionar algumas colunas específicas, mesclar, agregar e gravar o resultado em um único arquivo CSV. Por exemplo, CSV1name,age,deparment_id ...

6 a resposta

Como criar um DataFrame vazio com um esquema especificado?

Eu quero criar emDataFrame com um esquema especificado no Scala. Tentei usar a leitura JSON (refiro-me à leitura de arquivos vazios), mas não acho que seja a melhor prática.

4 a resposta

PySpark: Mapeie um SchemaRDD para um SchemaRDD

Estou carregando um arquivo de objetos JSON como um PySparkSchemaRDD. Eu quero alterar a "forma" dos objetos (basicamente, eu estou achatando-os) e depois inseri-los em uma tabela do Hive. O problema que tenho é que o seguinte retorna ...

2 a resposta

Como acessar tabelas RDD por meio do Spark SQL como um mecanismo de consulta distribuído JDBC?

Várias postagens no stackoverflow têm respostas com informações parciais sobre Como acessar tabelas RDD por meio do Spark SQL como um mecanismo de consulta distribuído JDBC. Então, eu gostaria de fazer as seguintes perguntas para ...

2 a resposta

Como adicionar uma nova coluna Struct a um DataFrame

Atualmente, estou tentando extrair um banco de dados do MongoDB e usar o Spark para inserir no ElasticSearch comgeo_points. O banco de dados Mongo possui valores de latitude e longitude, mas o ElasticSearch exige que eles sejam convertidos ...

1 a resposta

Conversão RDD para LabeledPoint

Se eu tiver um RDD com cerca de 500 colunas e 200 milhões de linhas, eRDD.columns.indexOf("target", 0) mostraInt = 77 que indica que minha variável dependente direcionada está na coluna número 77. Mas não tenho conhecimento suficiente sobre como ...

1 a resposta

Hive UDF para selecionar todas, exceto algumas colunas

O padrão de criação de consulta comum no HiveQL (e SQL em geral) é selecionar todas as colunas (SELECT *) ou um conjunto de colunas explicitamente especificado (SELECT A, B, C) O SQL não possui mecanismo interno para selecionar todas, exceto um ...

5 a resposta

Substituição SPARK SQL para a função agregada mysql GROUP_CONCAT

Eu tenho uma tabela de duas colunas do tipo string (nome de usuário, amigo) e, para cada nome de usuário, quero coletar todos os seus amigos em uma linha, concatenados como strings ('nome de usuário1', 'amigos1, amigos2, amigos3'). Eu sei que o ...