Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Filtragem Sparksql (selecionando com a cláusula where) com várias condições

Olá, tenho o seguinte problema: numeric.registerTempTable("numeric").Todos os valores que eu quero filtrar são cadeias de caracteres nulas literais e não valores N / A ou Nulos. Eu tentei estas três opções: numeric_filtered = ...

1 a resposta

Escolhendo itens aleatórios de um objeto Spark GroupedData

Eu sou novo no Spark no Python e não consegui resolver esse problema: Depois de executargroupBy com umpyspark.sql.dataframe.DataFrame df = sqlsc.read.json("data.json") df.groupBy('teamId')como você pode escolherN amostras aleatórias de cada ...

2 a resposta

O dataframe do Spark transforma várias linhas em coluna

Eu sou um novato para despertar, e querotransformarabaixodataframe de origem (carregar do arquivo JSON): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| ...

1 a resposta

Spark 1.5.1, Cassandra Connector 1.5.0-M2, Cassandra 2.1, Scala 2.10, dependência de goiaba NoSuchMethodError

Novo no ambiente Spark (e relativamente novo no Maven), estou com dificuldades em enviar as dependências necessárias corretamente. Parece que o Spark 1.5.1 tem uma dependência de goiaba-14.0.1 que ele tenta usar e o isPrimitive foi adicionado em ...

3 a resposta

Crie a maneira mais rápida de criar RDD de matrizes numpy

Meu aplicativo spark está usando RDDs de matrizes numpy. No momento, estou lendo meus dados da AWS S3 e eles são representados como um arquivo de texto simples, onde cada linha é um vetor e cada elemento é separado pelo espaço, por exemplo: 1 2 ...

5 a resposta

Como faço para testar os programas PySpark de unidade?

Minha abordagem atual de Java / Spark Unit Test funciona (detalhadaaqui [https://stackoverflow.com/a/32213314/2596363]) instanciando um SparkContext usando "local" e executando testes de unidade usando JUnit. O código deve ser organizado para ...

2 a resposta

Não foi possível encontrar líderes para Set ([TOPICNNAME, 0])) Quando estamos no Apache Saprk

Estamos usando o Apache Spark 1.5.1 e kafka_2.10-0.8.2.1 e a API Kafka DirectStream para buscar dados do Kafka usando o Spark. Criamos os tópicos em Kafka com as seguintes configurações ReplicationFactor: 1 e réplica: 1 Quando todas as ...

1 a resposta

Como listar RDDs definidos no shell Spark?

Nos shells "spark-shell" ou "pyspark", criei muitos RDDs, mas não consegui encontrar uma maneira de listar todos os RDDs disponíveis na minha sessão atual do Spark Shell?

3 a resposta

Colunas duplicadas no Spark Dataframe

Eu tenho um arquivo csv de 10 GB no cluster hadoop com colunas duplicadas. Eu tento analisá-lo no SparkR para usarspark-csv pacote para analisá-lo comoDataFrame: df <- read.df( sqlContext, FILE_PATH, source = "com.databricks.spark.csv", header = ...

2 a resposta

Spark: como distribuir uniformemente meus registros em todas as partições

Eu tenho um RDD com 30 registros (par de chave / valor: a chave é Time Stamp e o valor é JPEG Byte Array) e estou executando 30 executores. Quero reparticionar esse RDD em 30 partições para que cada partição obtenha um registro e seja atribuída a ...