Resultados da pesquisa a pedido "apache-spark"
Como carregar dependenices de jar no Notebook IPython
Esta página [https://medium.com/@chris_bour/6-differences-between-pandas-and-spark-dataframes-1380cec394d2#.85lrap56d] estava me inspirando a experimentar o spark-csv para ler arquivos .csv no PySpark. Encontrei algumas postagens ...
Como integrar o Spark ao projeto Scala no IntelliJ IDE?
Estou usando o IntelliJ IDE para jogar com Scala e Spark. Nesse IDE, criei um projeto Scala com um objeto Scala (veja a figura). [/imgs/rO0F8.jpg] Eu usei o código de regressão de amostra destelocal na rede ...
Erro numpy ao imprimir um RDD no Spark com Ipython
Estou tentando imprimir umRDD usandoSpark noIpython e quando faço isso, recebo este erro: --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) ...
Contar o número de entradas não-NaN em cada coluna do dataframe Spark com o Pyspark
Eu tenho um conjunto de dados muito grande carregado no Hive. Consiste em cerca de 1,9 milhões de linhas e 1450 colunas. Preciso determinar a "cobertura" de cada uma das colunas, ou seja, a fração de linhas que possuem valores não NaN para cada ...
Como atualizar o Spark para a versão mais recente?
Eu tenho uma máquina virtual que possuiSpark 1.3 nele, mas eu quero atualizá-lo paraSpark 1.5 devido principalmente a certas funcionalidades suportadas que não estavam no 1.3. É possível atualizar oSpark versão de1.3 para1.5 e se sim, como posso ...
Gravando quadros de dados R retornados do SparkR ::: map
Estou usando o mapa SparkR ::: e minha função retorna um quadro de dados R grande para cada linha de entrada, cada uma da mesma forma. Gostaria de escrever esses quadros de dados como arquivos em parquet sem 'colecioná-los'. Posso mapear write.df ...
Como renomear campos em um DataFrame correspondente ao JSON aninhado
Estou tentando processar eventos JSON recebidos em um aplicativo móvel (como cliques etc.) usandospark 1.5.2. Existem várias versões de aplicativos e a estrutura dos eventos varia entre as versões. Digamos que a versão 1 tenha a seguinte ...
Tabelas de seção não encontradas ao executar no modo YARN-Cluster
Eu tenho um aplicativo Spark (versão 1.4.1) no HDP 2.3. Funciona bem ao executá-lo no modo YARN-Client. No entanto, ao executá-lo no modo YARN-Cluster, nenhuma das minhas tabelas do Hive pode ser encontrada pelo aplicativo. Eu envio a inscrição ...
Retornando várias matrizes da função agregada definida pelo usuário (UDAF) no Apache Spark SQL
Estou tentando criar uma função agregada definida pelo usuário (UDAF) em Java usando o Apache Spark SQL que retorna várias matrizes na conclusão. Pesquisei on-line e não consigo encontrar exemplos ou sugestões sobre como fazer isso. Sou capaz de ...
O SparkSQL suporta subconsulta?
Estou executando esta consulta no shell Spark, mas isso gera um erro, sqlContext.sql( "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println)erro: java.lang.RuntimeException: [1.47] falha: ``) '' ...