Resultados da pesquisa a pedido "apache-spark"
Requisitos para converter o quadro de dados Spark em quadro de dados Pandas / R
Estou executando o Spark no fio do Hadoop. Como essa conversão funciona? Um collect () ocorre antes da conversão? Também preciso instalar o Python e o R em todos os nós escravos para que a conversão funcione? Estou lutando para encontrar ...
Como usar a fonte JDBC para gravar e ler dados no (Py) Spark?
O objetivo desta pergunta é documentar: etapas necessárias para ler e gravar dados usando conexões JDBC no PySpark possíveis problemas com fontes JDBC e soluções conhecidas Com pequenas alterações, esses métodos devem funcionar com outros ...
Existe uma maneira de reescrever o Spark RDD distinto para usar mapPartitions em vez de distinto?
Eu tenho um RDD muito grande para executar consistentemente uma declaração distinta sem erros espúrios (por exemplo, o estágio SparkException falhou 4 vezes, ExecutorLostFailure, sistema de arquivos HDFS fechado, número máximo de falhas do ...
Leia vários arquivos de um diretório usando o Spark
Estou tentando resolver issoproblema [https://www.kaggle.com/c/axa-driver-telematics-analysis]no kaggle usando spark: a hierarquia de entrada é assim: drivers/{driver_id}/trip#.csv e.g., drivers/1/1.csv drivers/1/2.csv drivers/2/1.csvEu quero ...
Faísca: coalescem muito lentamente até os dados de saída são muito pequenos
Eu tenho o seguinte código no Spark: myData.filter(t => t.getMyEnum() == null) .map(t => t.toString) .saveAsTextFile("myOutput")Existem mais de 2000 arquivos na pasta myOutput, mas apenas alguns t.getMyEnum () == null, portanto, existem apenas ...
Spark 1.4 aumenta a memória maxResultSize
Estou usando o Spark 1.4 para minha pesquisa e lutando com as configurações de memória. Minha máquina possui 16 GB de memória, portanto não há problema, pois o tamanho do meu arquivo é de apenas 300 MB. Embora, quando eu tento converter Spark RDD ...
remover duplicatas de um quadro de dados no pyspark
Estou mexendo com quadros de dados no pyspark 1.4 localmente e estou tendo problemas para que o método drop duplicates funcione. Continua retornando o erro "AttributeError: o objeto 'list' não tem atributo 'dropDuplicates'". Não sei ao certo por ...
Por que o Apache Spark está executando os filtros no cliente
Sendo novato no apache spark, enfrentando algum problema ao buscar dados do Cassandra no Spark. List<String> dates = Arrays.asList("2015-01-21","2015-01-22"); CassandraJavaRDD<A> aRDD = ...
Interromper o contexto de streaming no Spark Streaming após um período de tempo
Ao criar um aplicativo que recebe DStreams do Twitter, a única maneira de interromper o contexto de Streaming é interrompendo a execução. Gostaria de saber se existe uma maneira de definir um horário e finalizar o soquete de streaming sem parar o ...
Regressão linear Spark MlLib (mínimos quadrados lineares) fornecendo resultados aleatórios
Sou novo no Spark e no Machine Learning em geral. Segui com sucesso alguns dos tutoriais do Mllib, não consigo fazer funcionar este: Encontrei o código de exemplo ...