Resultados da pesquisa a pedido "pyspark"
Multiplicação do Spark Matrix com python
Estou tentando fazer a multiplicação de matrizes usando Apache Spark e Python. Aqui estão meus dados from pyspark.mllib.linalg.distributed import RowMatrixMeu RDD de vetores rows_1 = sc.parallelize([[1, 2], [4, 5], [7, 8]]) rows_2 = ...
Comparando colunas no Pyspark
Estou trabalhando em um PySpark DataFrame com n colunas. Eu tenho um conjunto de m colunas (m <n) e minha tarefa é escolher a coluna com valores máximos. Por exemplo: Entrada: PySpark DataFrame contendo col_1 = [1,2,3], col_2 = [2,1,4], col_3 ...
Spark 2.0: caminho relativo em URI absoluto (spark-warehouse)
Estou tentando migrar do Spark 1.6.1 para o Spark 2.0.0 e estou recebendo um erro estranho ao tentar ler um arquivo csv no SparkSQL. Anteriormente, quando eu lia um arquivo do disco local no pyspark, eu fazia: Spark 1.6 df = sqlContext.read \ ...
Aumentando o spark.yarn.executor.memoryOverhead
Estou tentando executar um trabalho (py) Spark no EMR que processará uma grande quantidade de dados. Atualmente, meu trabalho está falhando com a seguinte mensagem de erro: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of ...
Como reparticionar uniformemente o Spark?
Para testar como.repartition() funciona, executei o seguinte código: rdd = sc.parallelize(range(100)) rdd.getNumPartitions()rdd.getNumPartitions() resultou em4. Então eu corri: rdd = rdd.repartition(10) ...
Pool de conexão em um aplicativo pyspark de streaming
Qual é a maneira correta de usar pools de conexão em um aplicativo pyspark de streaming? Eu li ...
Recuperar n top em cada grupo de um DataFrame no pyspark
Há um DataFrame no pyspark com os dados abaixo: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6O que eu espero é retornar 2 registros em cada grupo com o mesmo ...
PySpark: leia, mapeie e reduza do arquivo de texto de registro multilinha com o newAPIHadoopFile
Estou tentando resolver um problema que é semelhante aoesta postagem [https://stackoverflow.com/questions/31227363/creating-spark-data-structure-from-multiline-record] . Meus dados originais são um arquivo de texto que contém valores ...
Como carregar dados em pedaços de um dataframe do pandas para um spark dataframe
Eu li dados em pedaços através de uma conexão pyodbc usando algo como isto: import pandas as pd import pyodbc conn = pyodbc.connect("Some connection Details") sql = "SELECT * from TABLES;" df1 = pd.read_sql(sql,conn,chunksize=10) Agora eu quero ...
java.lang.OutOfMemoryError: Não foi possível adquirir 100 bytes de memória, obteve 0
Estou invocando o Pyspark com Spark 2.0 no modo local com o seguinte comando: pyspark --executor-memory 4g --driver-memory 4gO quadro de dados de entrada está sendo lido de um arquivo tsv e possui 580 K x 28 colunas. Estou fazendo ...