Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Multiplicação do Spark Matrix com python

Estou tentando fazer a multiplicação de matrizes usando Apache Spark e Python. Aqui estão meus dados from pyspark.mllib.linalg.distributed import RowMatrixMeu RDD de vetores rows_1 = sc.parallelize([[1, 2], [4, 5], [7, 8]]) rows_2 = ...

3 a resposta

Spark: como obter o número de linhas escritas?

Gostaria de saber se existe uma maneira de saber o número de linhas escritas por uma operação de salvamento do Spark. Sei que basta contar com o RDD antes de escrevê-lo, mas gostaria de saber se existe uma maneira de obter as mesmas informações ...

2 a resposta

Falha ao criar cliente spark: exceção do Hive on spark

Mudei meu mecanismo de execução da seção para SPARK. ao fazer qualquer DML / DDL, estou recebendo abaixo da exceção. hive> select count(*) from tablename; Query ID = jibi_john_20160602153012_6ec1da36-dcb3-4f2f-a855-3b68be118b36 Total jobs = ...

2 a resposta

Todos os múltiplos quadros de dados

Para um conjunto de quadros de dados val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x") val df2 = sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y") val df3 = sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z")para ...

2 a resposta

Spark Streaming: como não reiniciar o receptor após a falha do receptor

Estamos usando um receptor spark personalizado que lê dados transmitidos de um link http fornecido. Se o link http fornecido estiver incorreto, o receptor falhará. O problema é que o spark reiniciará continuamente o receptor e o aplicativo nunca ...

4 a resposta

Agregando várias colunas com função personalizada no Spark

Fiquei me perguntando se existe alguma maneira de especificar uma função de agregação personalizada para quadros de dados spark em várias colunas. Eu tenho uma tabela como esta do tipo (nome, item, preço): john | tomato | 1.99 john | carrot | ...

1 a resposta

VectorAssembler não oferece suporte à conversão de spark scala do tipo StringType

Eu tenho um quadro de dados que contém colunas de seqüência de caracteres e planejo usá-lo como entrada para k-means usando spark e scala. Estou convertendo minhas colunas digitadas em string do dataframe usando o método abaixo: val toDouble = ...

2 a resposta

buscar mais de 20 linhas e exibir o valor total da coluna no shell de faísca

estou usandoCassandraSQLContext do spark-shell para consultar dados do Cassandra. Então, eu quero saber duas coisas: como buscar mais de 20 linhas usandoCassandraSQLContext e segundo, como o ID exibe o valor total da coluna. Como você pode ver ...

1 a resposta

Quando usar a API Spark DataFrame / Dataset e quando usar RDD simples?

O mecanismo de execução Spark SQL DataFrame / Dataset possui várias otimizações de tempo e espaço extremamente eficientes (por exemplo, InternalRow e expressão codeGen). De acordo com muitas documentações, parece ser uma opção melhor que o RDD ...

1 a resposta

Como fazer com que o Apache spark ignore pontos em uma consulta?

Dado o seguinte arquivo JSON: [{"dog*woof":"bad dog 1","dog.woof":"bad dog 32"}]Por que esse código Java falha: DataFrame df = sqlContext.read().json("dogfile.json"); df.groupBy("dog.woof").count().show();mas isso não: DataFrame df = ...