Resultados da pesquisa a pedido "pyspark"

1 a resposta

Multiplicação do Spark Matrix com python

Estou tentando fazer a multiplicação de matrizes usando Apache Spark e Python. Aqui estão meus dados from pyspark.mllib.linalg.distributed import RowMatrixMeu RDD de vetores rows_1 = sc.parallelize([[1, 2], [4, 5], [7, 8]]) rows_2 = ...

4 a resposta

Comparando colunas no Pyspark

Estou trabalhando em um PySpark DataFrame com n colunas. Eu tenho um conjunto de m colunas (m <n) e minha tarefa é escolher a coluna com valores máximos. Por exemplo: Entrada: PySpark DataFrame contendo col_1 = [1,2,3], col_2 = [2,1,4], col_3 ...

1 a resposta

Spark 2.0: caminho relativo em URI absoluto (spark-warehouse)

Estou tentando migrar do Spark 1.6.1 para o Spark 2.0.0 e estou recebendo um erro estranho ao tentar ler um arquivo csv no SparkSQL. Anteriormente, quando eu lia um arquivo do disco local no pyspark, eu fazia: Spark 1.6 df = sqlContext.read \ ...

2 a resposta

Aumentando o spark.yarn.executor.memoryOverhead

Estou tentando executar um trabalho (py) Spark no EMR que processará uma grande quantidade de dados. Atualmente, meu trabalho está falhando com a seguinte mensagem de erro: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of ...

1 a resposta

Como reparticionar uniformemente o Spark?

Para testar como.repartition() funciona, executei o seguinte código: rdd = sc.parallelize(range(100)) rdd.getNumPartitions()rdd.getNumPartitions() resultou em4. Então eu corri: rdd = rdd.repartition(10) ...

1 a resposta

Pool de conexão em um aplicativo pyspark de streaming

Qual é a maneira correta de usar pools de conexão em um aplicativo pyspark de streaming? Eu li ...

3 a resposta

Recuperar n top em cada grupo de um DataFrame no pyspark

Há um DataFrame no pyspark com os dados abaixo: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6O que eu espero é retornar 2 registros em cada grupo com o mesmo ...

1 a resposta

PySpark: leia, mapeie e reduza do arquivo de texto de registro multilinha com o newAPIHadoopFile

Estou tentando resolver um problema que é semelhante aoesta postagem [https://stackoverflow.com/questions/31227363/creating-spark-data-structure-from-multiline-record] . Meus dados originais são um arquivo de texto que contém valores ...

1 a resposta

Como carregar dados em pedaços de um dataframe do pandas para um spark dataframe

Eu li dados em pedaços através de uma conexão pyodbc usando algo como isto: import pandas as pd import pyodbc conn = pyodbc.connect("Some connection Details") sql = "SELECT * from TABLES;" df1 = pd.read_sql(sql,conn,chunksize=10) Agora eu quero ...

4 a resposta

java.lang.OutOfMemoryError: Não foi possível adquirir 100 bytes de memória, obteve 0

Estou invocando o Pyspark com Spark 2.0 no modo local com o seguinte comando: pyspark --executor-memory 4g --driver-memory 4gO quadro de dados de entrada está sendo lido de um arquivo tsv e possui 580 K x 28 colunas. Estou fazendo ...