Resultados da pesquisa a pedido "apache-spark-sql"

estou olhando paraspark.sql.DataFrame [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame] documentação. Há sim def as(alias: String): DataFrame Returns a new DataFrame with an alias set. Since 1.3.0Qual é ...

apache-spark scala json

4 a resposta

Como converter DataFrame para Json?

Eu tenho um arquivo Json enorme, uma pequena parte dele da seguinte maneira: { "socialNews": [{ "adminTagIds": "", "fileIds": "", "departmentTagIds": "", ........ ........ "comments": [{ "commentId": "", "newsId": "", "entityId": "", .... .... ...

spark-dataframe apache-spark

3 a resposta

Qual é eficiente, Dataframe ou RDD ou hiveql?

Eu sou novato no Apache Spark. Meu trabalho é ler dois arquivos CSV, selecionar algumas colunas específicas, mesclar, agregar e gravar o resultado em um único arquivo CSV. Por exemplo, CSV1name,age,deparment_id ...

dataframe apache-spark scala

6 a resposta

Como criar um DataFrame vazio com um esquema especificado?

Eu quero criar emDataFrame com um esquema especificado no Scala. Tentei usar a leitura JSON (refiro-me à leitura de arquivos vazios), mas não acho que seja a melhor prática.

pyspark rdd hive apache-spark

4 a resposta

PySpark: Mapeie um SchemaRDD para um SchemaRDD

Estou carregando um arquivo de objetos JSON como um PySparkSchemaRDD. Eu quero alterar a "forma" dos objetos (basicamente, eu estou achatando-os) e depois inseri-los em uma tabela do Hive. O problema que tenho é que o seguinte retorna ...

apache-spark

2 a resposta

Como acessar tabelas RDD por meio do Spark SQL como um mecanismo de consulta distribuído JDBC?

Várias postagens no stackoverflow têm respostas com informações parciais sobre Como acessar tabelas RDD por meio do Spark SQL como um mecanismo de consulta distribuído JDBC. Então, eu gostaria de fazer as seguintes perguntas para ...

etl scala apache-spark elasticsearch

2 a resposta

Como adicionar uma nova coluna Struct a um DataFrame

Atualmente, estou tentando extrair um banco de dados do MongoDB e usar o Spark para inserir no ElasticSearch comgeo_points. O banco de dados Mongo possui valores de latitude e longitude, mas o ElasticSearch exige que eles sejam convertidos ...

apache-spark rdd apache-spark-mllib scala

1 a resposta

Conversão RDD para LabeledPoint

Se eu tiver um RDD com cerca de 500 colunas e 200 milhões de linhas, eRDD.columns.indexOf("target", 0) mostraInt = 77 que indica que minha variável dependente direcionada está na coluna número 77. Mas não tenho conhecimento suficiente sobre como ...

hive hiveql udf apache-spark

1 a resposta

Hive UDF para selecionar todas, exceto algumas colunas

O padrão de criação de consulta comum no HiveQL (e SQL em geral) é selecionar todas as colunas (SELECT *) ou um conjunto de colunas explicitamente especificado (SELECT A, B, C) O SQL não possui mecanismo interno para selecionar todas, exceto um ...

aggregate-functions apache-spark

5 a resposta

Substituição SPARK SQL para a função agregada mysql GROUP_CONCAT

Eu tenho uma tabela de duas colunas do tipo string (nome de usuário, amigo) e, para cada nome de usuário, quero coletar todos os seus amigos em uma linha, concatenados como strings ('nome de usuário1', 'amigos1, amigos2, amigos3'). Eu sei que o ...

Página 33 do 52

31 323334 35

Resultados da pesquisa a pedido "apache-spark-sql"

Uso do método spark as DataFrame “as”

Como converter DataFrame para Json?

Qual é eficiente, Dataframe ou RDD ou hiveql?

Tags populares

Como criar um DataFrame vazio com um esquema especificado?

PySpark: Mapeie um SchemaRDD para um SchemaRDD

Como acessar tabelas RDD por meio do Spark SQL como um mecanismo de consulta distribuído JDBC?

Como adicionar uma nova coluna Struct a um DataFrame

Conversão RDD para LabeledPoint

Hive UDF para selecionar todas, exceto algumas colunas

Substituição SPARK SQL para a função agregada mysql GROUP_CONCAT

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares