Resultados da pesquisa a pedido "hadoop"

2 a resposta

localidade de dados spark + hadoop

Eu tenho um RDD de nomes de arquivos, então um RDD [String]. Eu entendo isso paralelizando uma lista de nomes de arquivos (de arquivos dentro de hdfs). Agora mapeio esse rdd e meu código abre um fluxo hadoop usando FileSystem.open (path). Então ...

3 a resposta

mesclar vários arquivos pequenos em poucos arquivos maiores no Spark

Eu estou usando a colméia através do Spark. Eu tenho uma inserção na consulta de tabela particionada no meu código spark. Os dados de entrada estão em 200 + gb. Quando o Spark está gravando em uma tabela particionada, está cuspindo arquivos muito ...

4 a resposta

Permissão negada (publickey, gssapi-keyex, gssapi-with-mic, password) durante a instalação do ambari hadoop

Estou tentando implantar um cluster hadoop usando ambari, mas quando seleciono os nomes de host com o FQDN e prossigo para a configuração, recebo o erro de permissão negada para ssh. PASSOS: 1. gerou a chave rsa usando o ssh-keygen como ...

5 a resposta

Hadoop no Windows. O YARN falha ao iniciar com java.lang.UnsatisfiedLinkError

Eu instalei / configurei o Hadoop no windows hadoop-2.7.0 Eu poderia iniciar com êxito o comando de execução "sbin \ start-dfs". DataNode e NameNode iniciado. Eu poderia criar diretório, adicionar arquivo ao sistema hadoop. Mas agora, quando ...

1 a resposta

Diferença entre o Application Manager e o Application Master no YARN?

Entendi como o MRv1 funciona. Agora estou tentando entender o MRv2. Qual é a diferença entre o Application Manager e o Application Master no YARN?

1 a resposta

Requisitos para converter o quadro de dados Spark em quadro de dados Pandas / R

Estou executando o Spark no fio do Hadoop. Como essa conversão funciona? Um collect () ocorre antes da conversão? Também preciso instalar o Python e o R em todos os nós escravos para que a conversão funcione? Estou lutando para encontrar ...

1 a resposta

Leia vários arquivos de um diretório usando o Spark

Estou tentando resolver issoproblema [https://www.kaggle.com/c/axa-driver-telematics-analysis]no kaggle usando spark: a hierarquia de entrada é assim: drivers/{driver_id}/trip#.csv e.g., drivers/1/1.csv drivers/1/2.csv drivers/2/1.csvEu quero ...

3 a resposta

R: Criando um CSV a partir de objetos serializados

Estou tentando pegar uma lista e serializar cada item e colocá-lo em um arquivo CSV com uma chave para criar um arquivo de texto com pares de chave / valor. Por fim, isso será executado no streaming do Hadoop, portanto, antes que você pergunte, ...

1 a resposta

Diferença entre Spark Vetores e Scala imutável Vector?

Estou escrevendo um projeto para o Spark 1.4 no Scala e atualmente estou entre converter meus dados de entrada iniciais emspark.mllib.linalg.Vectors escala.immutable.Vector com quem mais tarde quero trabalhar no meu algoritmo. Alguém poderia ...

1 a resposta

Como o PySpark pode ser chamado no modo de depuração?

Eu tenho o IntelliJ IDEA configurado com o Apache Spark 1.4. Quero poder adicionar pontos de depuração aos meus scripts Spark Python para que eu possa depurá-los facilmente. Atualmente, estou executando este pouco de Python para inicializar o ...