Resultados da pesquisa a pedido "apache-spark-sql"

Eu li um arquivo JSON no Spark. Este arquivo tem a seguinte estrutura: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable = true) |-- search: struct ...

scala apache-spark-ml apache-spark

3 a resposta

Spark, Scala, DataFrame: crie vetores de recursos

eu tenho umDataFrame que se parece com segue: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 3,cat1,5 3,cat7,16 3,cat8,2O número de categorias distintas é 10 e eu gostaria de criar um vetor de recurso para ...

apache-spark dataframe scala sql

8 a resposta

Como selecionar a primeira linha de cada grupo?

Eu tenho um DataFrame gerado da seguinte maneira: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc))Os resultados são parecidos com: +----+--------+----------+ |Hour|Category|TotalValue| ...

python dataframe pyspark apache-spark

2 a resposta

Contar o número de entradas não-NaN em cada coluna do dataframe Spark com o Pyspark

Eu tenho um conjunto de dados muito grande carregado no Hive. Consiste em cerca de 1,9 milhões de linhas e 1450 colunas. Preciso determinar a "cobertura" de cada uma das colunas, ou seja, a fração de linhas que possuem valores não NaN para cada ...

apache-spark avro java

2 a resposta

Esquema Avro para desencadear StructType

Este é efetivamente o mesmo que o meupergunta anterior [https://stackoverflow.com/questions/33807145/evolving-a-schema-with-spark-dataframe/] , mas usando Avro em vez de JSON como formato de dados. Estou trabalhando com um quadro de dados Spark ...

apache-spark aggregate-functions scala apache-spark-ml

2 a resposta

Como definir uma função de agregação personalizada para somar uma coluna de vetores?

Eu tenho um DataFrame de duas colunas,ID do tipoInt eVec do tipoVector (org.apache.spark.mllib.linalg.Vector) O DataFrame é semelhante a seguir: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] ....Eu ...

apache-spark

2 a resposta

Como renomear campos em um DataFrame correspondente ao JSON aninhado

Estou tentando processar eventos JSON recebidos em um aplicativo móvel (como cliques etc.) usandospark 1.5.2. Existem várias versões de aplicativos e a estrutura dos eventos varia entre as versões. Digamos que a versão 1 tenha a seguinte ...

apache-spark yarn hortonworks-data-platform hive

2 a resposta

Tabelas de seção não encontradas ao executar no modo YARN-Cluster

Eu tenho um aplicativo Spark (versão 1.4.1) no HDP 2.3. Funciona bem ao executá-lo no modo YARN-Client. No entanto, ao executá-lo no modo YARN-Cluster, nenhuma das minhas tabelas do Hive pode ser encontrada pelo aplicativo. Eu envio a inscrição ...

subquery apache-spark sql

2 a resposta

O SparkSQL suporta subconsulta?

Estou executando esta consulta no shell Spark, mas isso gera um erro, sqlContext.sql( "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println)erro: java.lang.RuntimeException: [1.47] falha: ``) '' ...

sqlite apache-spark scala

1 a resposta

Conecte-se ao SQLite no Apache Spark

Eu quero executar uma função personalizada em todas as tabelas em um banco de dados SQLite. A função é mais ou menos a mesma, mas depende do esquema da tabela individual. Além disso, as tabelas e seus esquemas são conhecidos apenas em tempo de ...

Página 41 do 52

39 404142 43

Resultados da pesquisa a pedido "apache-spark-sql"

Como posso criar um Spark DataFrame a partir de uma matriz aninhada do elemento struct?

Spark, Scala, DataFrame: crie vetores de recursos

Como selecionar a primeira linha de cada grupo?

Tags populares

Contar o número de entradas não-NaN em cada coluna do dataframe Spark com o Pyspark

Esquema Avro para desencadear StructType

Como definir uma função de agregação personalizada para somar uma coluna de vetores?

Como renomear campos em um DataFrame correspondente ao JSON aninhado

Tabelas de seção não encontradas ao executar no modo YARN-Cluster

O SparkSQL suporta subconsulta?

Conecte-se ao SQLite no Apache Spark

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares