Resultados da pesquisa a pedido "apache-spark-sql"

3 a resposta

Como posso criar um Spark DataFrame a partir de uma matriz aninhada do elemento struct?

Eu li um arquivo JSON no Spark. Este arquivo tem a seguinte estrutura: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable = true) |-- search: struct ...

3 a resposta

Spark, Scala, DataFrame: crie vetores de recursos

eu tenho umDataFrame que se parece com segue: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 3,cat1,5 3,cat7,16 3,cat8,2O número de categorias distintas é 10 e eu gostaria de criar um vetor de recurso para ...

8 a resposta

Como selecionar a primeira linha de cada grupo?

Eu tenho um DataFrame gerado da seguinte maneira: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc))Os resultados são parecidos com: +----+--------+----------+ |Hour|Category|TotalValue| ...

2 a resposta

Contar o número de entradas não-NaN em cada coluna do dataframe Spark com o Pyspark

Eu tenho um conjunto de dados muito grande carregado no Hive. Consiste em cerca de 1,9 milhões de linhas e 1450 colunas. Preciso determinar a "cobertura" de cada uma das colunas, ou seja, a fração de linhas que possuem valores não NaN para cada ...

2 a resposta

Esquema Avro para desencadear StructType

Este é efetivamente o mesmo que o meupergunta anterior [https://stackoverflow.com/questions/33807145/evolving-a-schema-with-spark-dataframe/] , mas usando Avro em vez de JSON como formato de dados. Estou trabalhando com um quadro de dados Spark ...

2 a resposta

Como definir uma função de agregação personalizada para somar uma coluna de vetores?

Eu tenho um DataFrame de duas colunas,ID do tipoInt eVec do tipoVector (org.apache.spark.mllib.linalg.Vector) O DataFrame é semelhante a seguir: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] ....Eu ...

2 a resposta

Como renomear campos em um DataFrame correspondente ao JSON aninhado

Estou tentando processar eventos JSON recebidos em um aplicativo móvel (como cliques etc.) usandospark 1.5.2. Existem várias versões de aplicativos e a estrutura dos eventos varia entre as versões. Digamos que a versão 1 tenha a seguinte ...

2 a resposta

Tabelas de seção não encontradas ao executar no modo YARN-Cluster

Eu tenho um aplicativo Spark (versão 1.4.1) no HDP 2.3. Funciona bem ao executá-lo no modo YARN-Client. No entanto, ao executá-lo no modo YARN-Cluster, nenhuma das minhas tabelas do Hive pode ser encontrada pelo aplicativo. Eu envio a inscrição ...

2 a resposta

O SparkSQL suporta subconsulta?

Estou executando esta consulta no shell Spark, mas isso gera um erro, sqlContext.sql( "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println)erro: java.lang.RuntimeException: [1.47] falha: ``) '' ...

1 a resposta

Conecte-se ao SQLite no Apache Spark

Eu quero executar uma função personalizada em todas as tabelas em um banco de dados SQLite. A função é mais ou menos a mesma, mas depende do esquema da tabela individual. Além disso, as tabelas e seus esquemas são conhecidos apenas em tempo de ...