Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Como carregar dependenices de jar no Notebook IPython

Esta página [https://medium.com/@chris_bour/6-differences-between-pandas-and-spark-dataframes-1380cec394d2#.85lrap56d] estava me inspirando a experimentar o spark-csv para ler arquivos .csv no PySpark. Encontrei algumas postagens ...

1 a resposta

Como integrar o Spark ao projeto Scala no IntelliJ IDE?

Estou usando o IntelliJ IDE para jogar com Scala e Spark. Nesse IDE, criei um projeto Scala com um objeto Scala (veja a figura). [/imgs/rO0F8.jpg] Eu usei o código de regressão de amostra destelocal na rede ...

0 a resposta

Erro numpy ao imprimir um RDD no Spark com Ipython

Estou tentando imprimir umRDD usandoSpark noIpython e quando faço isso, recebo este erro: --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) ...

2 a resposta

Contar o número de entradas não-NaN em cada coluna do dataframe Spark com o Pyspark

Eu tenho um conjunto de dados muito grande carregado no Hive. Consiste em cerca de 1,9 milhões de linhas e 1450 colunas. Preciso determinar a "cobertura" de cada uma das colunas, ou seja, a fração de linhas que possuem valores não NaN para cada ...

2 a resposta

Como atualizar o Spark para a versão mais recente?

Eu tenho uma máquina virtual que possuiSpark 1.3 nele, mas eu quero atualizá-lo paraSpark 1.5 devido principalmente a certas funcionalidades suportadas que não estavam no 1.3. É possível atualizar oSpark versão de1.3 para1.5 e se sim, como posso ...

1 a resposta

Gravando quadros de dados R retornados do SparkR ::: map

Estou usando o mapa SparkR ::: e minha função retorna um quadro de dados R grande para cada linha de entrada, cada uma da mesma forma. Gostaria de escrever esses quadros de dados como arquivos em parquet sem 'colecioná-los'. Posso mapear write.df ...

2 a resposta

Como renomear campos em um DataFrame correspondente ao JSON aninhado

Estou tentando processar eventos JSON recebidos em um aplicativo móvel (como cliques etc.) usandospark 1.5.2. Existem várias versões de aplicativos e a estrutura dos eventos varia entre as versões. Digamos que a versão 1 tenha a seguinte ...

2 a resposta

Tabelas de seção não encontradas ao executar no modo YARN-Cluster

Eu tenho um aplicativo Spark (versão 1.4.1) no HDP 2.3. Funciona bem ao executá-lo no modo YARN-Client. No entanto, ao executá-lo no modo YARN-Cluster, nenhuma das minhas tabelas do Hive pode ser encontrada pelo aplicativo. Eu envio a inscrição ...

1 a resposta

Retornando várias matrizes da função agregada definida pelo usuário (UDAF) no Apache Spark SQL

Estou tentando criar uma função agregada definida pelo usuário (UDAF) em Java usando o Apache Spark SQL que retorna várias matrizes na conclusão. Pesquisei on-line e não consigo encontrar exemplos ou sugestões sobre como fazer isso. Sou capaz de ...

2 a resposta

O SparkSQL suporta subconsulta?

Estou executando esta consulta no shell Spark, mas isso gera um erro, sqlContext.sql( "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println)erro: java.lang.RuntimeException: [1.47] falha: ``) '' ...