Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Não é possível converter o tipo <class 'pyspark.ml.linalg.SparseVector'> em Vector

Dado meu objeto Row pyspark: >>> row Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})) >>> row.clicked 0 >>> row.features SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}) >>> type(row.features) <class ...

2 a resposta

Como especificar o dialeto sql ao criar o spark dataframe a partir do JDBC?

Estou com problemas para ler dados via JDBC personalizado com Spark. Como eu substitui o dialeto sql inferido via jdbc url? O banco de dados em questão é vitess (https://github.com/youtube/vitess [https://github.com/youtube/vitess]) que executa ...

4 a resposta

Juntar um conjunto de dados inclinado no Spark?

Estou juntando dois grandes conjuntos de dados usando o Spark RDD. Um conjunto de dados está muito inclinado, portanto poucas tarefas do executor demoram muito tempo para concluir o trabalho. Como posso resolver esse cenário?

3 a resposta

executar junção em vários DataFrame no spark

Tenho 3dataframes gerados a partir de 3 processos diferentes. Todo dataframe está tendo colunas com o mesmo nome. Meu dataframe fica assim id val1 val2 val3 val4 1 null null null null 2 A2 A21 A31 A41 id val1 val2 val3 val4 1 B1 B21 B31 B41 2 ...

1 a resposta

Preparar meus dados grandes com Spark via Python

Meus 100m de tamanho, dados quantizados: (1424411938', [3885, 7898]) (3333333333', [3885, 7898])Resultado desejado: (3885, [3333333333, 1424411938]) (7898, [3333333333, 1424411938])Então, o que eu quero é transformar os dados para agrupar 3885 ...

3 a resposta

Limitar o tamanho dos lotes Kafka ao usar o Spark Streaming

É possível limitar o tamanho dos lotes retornados pelo consumidor Kafka para o Spark Streaming? Estou perguntando, porque o primeiro lote que recebo tem centenas de milhões de registros e leva muito tempo para processá-los e conferi-los.

1 a resposta

Spark RDD: Como calcular estatísticas com mais eficiência?

Assumindo a existência de um RDD de tuplas semelhante ao seguinte: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...Qual é a maneira mais eficiente (e, idealmente, distribuída) de calcular estatísticas correspondentes a ...

1 a resposta

Apache spark lidando com instruções de caso

Estou lidando com a transformação de código SQL em código PySpark e me deparei com algumas instruções SQL. Não sei como abordar declarações de casos no pyspark? Estou planejando criar um RDD e, em seguida, usar o rdd.map e, em seguida, fazer ...

1 a resposta

Calcular o custo de kmeans

Eu estou usando issomodelo [https://github.com/yahoo/lopq/blob/master/python/lopq/model.py], que não é escrito por mim. Para prever os centróides, tive que fazer isso: model = cPickle.load(open("/tmp/model_centroids_128d_pkl.lopq")) codes ...

2 a resposta

Como converter JavaPairInputDStream em DataSet / DataFrame no Spark

Estou tentando receber dados de streaming dekafka. Nesse processo, sou capaz de receber e armazenar os dados de streaming emJavaPairInputDStream. Agora eu preciso analisar esses dados sem armazená-los em qualquer banco de ...