Resultados da pesquisa a pedido "apache-spark"
Filtragem Sparksql (selecionando com a cláusula where) com várias condições
Olá, tenho o seguinte problema: numeric.registerTempTable("numeric").Todos os valores que eu quero filtrar são cadeias de caracteres nulas literais e não valores N / A ou Nulos. Eu tentei estas três opções: numeric_filtered = ...
Escolhendo itens aleatórios de um objeto Spark GroupedData
Eu sou novo no Spark no Python e não consegui resolver esse problema: Depois de executargroupBy com umpyspark.sql.dataframe.DataFrame df = sqlsc.read.json("data.json") df.groupBy('teamId')como você pode escolherN amostras aleatórias de cada ...
O dataframe do Spark transforma várias linhas em coluna
Eu sou um novato para despertar, e querotransformarabaixodataframe de origem (carregar do arquivo JSON): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| ...
Spark 1.5.1, Cassandra Connector 1.5.0-M2, Cassandra 2.1, Scala 2.10, dependência de goiaba NoSuchMethodError
Novo no ambiente Spark (e relativamente novo no Maven), estou com dificuldades em enviar as dependências necessárias corretamente. Parece que o Spark 1.5.1 tem uma dependência de goiaba-14.0.1 que ele tenta usar e o isPrimitive foi adicionado em ...
Crie a maneira mais rápida de criar RDD de matrizes numpy
Meu aplicativo spark está usando RDDs de matrizes numpy. No momento, estou lendo meus dados da AWS S3 e eles são representados como um arquivo de texto simples, onde cada linha é um vetor e cada elemento é separado pelo espaço, por exemplo: 1 2 ...
Como faço para testar os programas PySpark de unidade?
Minha abordagem atual de Java / Spark Unit Test funciona (detalhadaaqui [https://stackoverflow.com/a/32213314/2596363]) instanciando um SparkContext usando "local" e executando testes de unidade usando JUnit. O código deve ser organizado para ...
Não foi possível encontrar líderes para Set ([TOPICNNAME, 0])) Quando estamos no Apache Saprk
Estamos usando o Apache Spark 1.5.1 e kafka_2.10-0.8.2.1 e a API Kafka DirectStream para buscar dados do Kafka usando o Spark. Criamos os tópicos em Kafka com as seguintes configurações ReplicationFactor: 1 e réplica: 1 Quando todas as ...
Como listar RDDs definidos no shell Spark?
Nos shells "spark-shell" ou "pyspark", criei muitos RDDs, mas não consegui encontrar uma maneira de listar todos os RDDs disponíveis na minha sessão atual do Spark Shell?
Colunas duplicadas no Spark Dataframe
Eu tenho um arquivo csv de 10 GB no cluster hadoop com colunas duplicadas. Eu tento analisá-lo no SparkR para usarspark-csv pacote para analisá-lo comoDataFrame: df <- read.df( sqlContext, FILE_PATH, source = "com.databricks.spark.csv", header = ...
Spark: como distribuir uniformemente meus registros em todas as partições
Eu tenho um RDD com 30 registros (par de chave / valor: a chave é Time Stamp e o valor é JPEG Byte Array) e estou executando 30 executores. Quero reparticionar esse RDD em 30 partições para que cada partição obtenha um registro e seja atribuída a ...