Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Funções da janela Spark - intervalo entre datas

Estou tendo um Spark SQLDataFrame com dados e o que estou tentando obter são todas as linhas que precedem a linha atual em um determinado período. Então, por exemplo, eu quero ter todas as linhas de 7 dias antes da linha especificada. Eu descobri ...

2 a resposta

Tutorial do Apache zeppelin, erro “interpretador sql não encontrado”

No "Tutorial do Zeppelin"notebook, não consigo usar o% intérprete sql. Isso irá gerar "sql interpreter not found". Mas os comandos do spark funcionam bem, assim como%md e%sh. Aqui está o log: ERRO [2015-10-20 10: 13: 35,045] ({qtp885851948-51} ...

9 a resposta

Melhor maneira de obter o valor máximo em uma coluna de quadro de dados Spark

Estou tentando descobrir a melhor maneira de obter o maior valor em uma coluna de quadro de dados Spark. Considere o seguinte exemplo: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() O que cria: +---+---+ | A| ...

1 a resposta

Coluna Matriz de Acesso no Spark

Um Spark DataFrame contém uma coluna do tipo Array [Double]. Ele lança uma exceção ClassCastException quando tento recuperá-lo em uma função map (). O código Scala a seguir gera uma exceção. case class Dummy( x:Array[Double] ) val df ...

1 a resposta

Pyspark e PCA: Como posso extrair os autovetores deste PCA? Como posso calcular quanta variação eles estão explicando?

Estou reduzindo a dimensionalidade de umSpark DataFrame comPCA modelo com pyspark (usando ospark ml biblioteca) da seguinte forma: pca = PCA(k=3, inputCol="features", outputCol="pca_features") model = pca.fit(data)Ondedata é umSpark DataFrame ...

1 a resposta

Como o Spark DataFrame lida com o Pandas DataFrame que é maior que a memória

Estou aprendendo o Spark agora e parece ser a solução de big data para o Pandas Dataframe, mas tenho essa pergunta que me deixa insegura. Atualmente, estou armazenando quadros de dados do Pandas maiores que a memória usando o HDF5. O HDF5 é uma ...

2 a resposta

O Apache Spark lança NullPointerException ao encontrar o recurso ausente

Eu tenho um problema bizarro com o PySpark ao indexar colunas de strings em recursos. Aqui está o meu arquivo tmp.csv: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1onde eu tenho um ...

1 a resposta

Problemas com a execução de várias consultas usando Spark e HiveSQL

Espero que alguém possa me ajudar com esse problema. Dentro do shell de faísca, onde se eu tentar algo como abaixo: var sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) var query = "select * from myDB.table limit 10; drop table if ...

3 a resposta

Qual é a diferença entre Apache Spark SQLContext e HiveContext?

Quais são as diferenças entre o Apache Spark SQLContext e o HiveContext? Algumas fontes dizem que, como o HiveContext é um superconjunto do SQLContext, os desenvolvedores devem sempre usar o HiveContext, que possui mais recursos que o ...

2 a resposta

Usando groupBy no Spark e retornando a um DataFrame

Tenho uma dificuldade ao trabalhar com quadros de dados no Spark com o Scala. Se eu tiver um quadro de dados que deseje extrair uma coluna de entradas exclusivas, quando usargroupBy Não recebo um quadro de dados de volta. Por exemplo, eu tenho ...