Resultados da pesquisa a pedido "hadoop"
localidade de dados spark + hadoop
Eu tenho um RDD de nomes de arquivos, então um RDD [String]. Eu entendo isso paralelizando uma lista de nomes de arquivos (de arquivos dentro de hdfs). Agora mapeio esse rdd e meu código abre um fluxo hadoop usando FileSystem.open (path). Então ...
mesclar vários arquivos pequenos em poucos arquivos maiores no Spark
Eu estou usando a colméia através do Spark. Eu tenho uma inserção na consulta de tabela particionada no meu código spark. Os dados de entrada estão em 200 + gb. Quando o Spark está gravando em uma tabela particionada, está cuspindo arquivos muito ...
Permissão negada (publickey, gssapi-keyex, gssapi-with-mic, password) durante a instalação do ambari hadoop
Estou tentando implantar um cluster hadoop usando ambari, mas quando seleciono os nomes de host com o FQDN e prossigo para a configuração, recebo o erro de permissão negada para ssh. PASSOS: 1. gerou a chave rsa usando o ssh-keygen como ...
Hadoop no Windows. O YARN falha ao iniciar com java.lang.UnsatisfiedLinkError
Eu instalei / configurei o Hadoop no windows hadoop-2.7.0 Eu poderia iniciar com êxito o comando de execução "sbin \ start-dfs". DataNode e NameNode iniciado. Eu poderia criar diretório, adicionar arquivo ao sistema hadoop. Mas agora, quando ...
Diferença entre o Application Manager e o Application Master no YARN?
Entendi como o MRv1 funciona. Agora estou tentando entender o MRv2. Qual é a diferença entre o Application Manager e o Application Master no YARN?
Requisitos para converter o quadro de dados Spark em quadro de dados Pandas / R
Estou executando o Spark no fio do Hadoop. Como essa conversão funciona? Um collect () ocorre antes da conversão? Também preciso instalar o Python e o R em todos os nós escravos para que a conversão funcione? Estou lutando para encontrar ...
Leia vários arquivos de um diretório usando o Spark
Estou tentando resolver issoproblema [https://www.kaggle.com/c/axa-driver-telematics-analysis]no kaggle usando spark: a hierarquia de entrada é assim: drivers/{driver_id}/trip#.csv e.g., drivers/1/1.csv drivers/1/2.csv drivers/2/1.csvEu quero ...
R: Criando um CSV a partir de objetos serializados
Estou tentando pegar uma lista e serializar cada item e colocá-lo em um arquivo CSV com uma chave para criar um arquivo de texto com pares de chave / valor. Por fim, isso será executado no streaming do Hadoop, portanto, antes que você pergunte, ...
Diferença entre Spark Vetores e Scala imutável Vector?
Estou escrevendo um projeto para o Spark 1.4 no Scala e atualmente estou entre converter meus dados de entrada iniciais emspark.mllib.linalg.Vectors escala.immutable.Vector com quem mais tarde quero trabalhar no meu algoritmo. Alguém poderia ...
Como o PySpark pode ser chamado no modo de depuração?
Eu tenho o IntelliJ IDEA configurado com o Apache Spark 1.4. Quero poder adicionar pontos de depuração aos meus scripts Spark Python para que eu possa depurá-los facilmente. Atualmente, estou executando este pouco de Python para inicializar o ...