Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Spark Scala: Como converter Dataframe [vetor] para DataFrame [f1: Duplo,…, fn: Duplo)]

Acabei de usar o Standard Scaler para normalizar meus recursos para um aplicativo ML. Depois de selecionar os recursos dimensionados, desejo convertê-lo novamente em um quadro de dados de Doubles, embora o comprimento dos meus vetores seja ...

1 a resposta

Spark 2.0.0 lendo dados json com esquema variável

Estou tentando processar o valor de um mês de tráfego de site, que é armazenado em um bucket S3 como json (um objeto json por linha / tráfego de site atingido). A quantidade de dados é grande o suficiente para que eu não possa pedir ao Spark para ...

4 a resposta

Como contar ocorrências de cada valor distinto para cada coluna em um dataframe?

edf.select("x").distinct.show() mostra os valores distintos que estão presentes nox coluna deedf Quadro de dados. Existe um método eficiente para mostrar também o número de vezes que esses valores distintos ocorrem no quadro de dados? (conte ...

1 a resposta

Como carregar dados em pedaços de um dataframe do pandas para um spark dataframe

Eu li dados em pedaços através de uma conexão pyodbc usando algo como isto: import pandas as pd import pyodbc conn = pyodbc.connect("Some connection Details") sql = "SELECT * from TABLES;" df1 = pd.read_sql(sql,conn,chunksize=10) Agora eu quero ...

3 a resposta

O log de variável local definido em um escopo anexo deve ser final ou efetivamente final

Eu sou novo no lambda e Java8. Estou enfrentando o seguinte erro. O log de variável local definido em um escopo anexo deve ser final ou efetivamente final public JavaRDD<String> modify(JavaRDD<String> filteredRdd) { filteredRdd.map(log -> { ...

1 a resposta

Como visualizar os logs de um trabalho de faísca depois de concluído e o contexto fechado?

eu estou correndopyspark, spark 1.3, standalone mode, client mode. Estou tentando investigar meu trabalho centelhado, olhando para os trabalhos do passado e comparando-os. Quero visualizar os logs, as definições de configuração nas quais os ...

1 a resposta

Como equilibrar meus dados entre as partições?

Editar: A resposta ajuda, mas descrevi minha solução em:problema memoryOverhead no Spark [https://gsamaras.wordpress.com/code/memoryoverhead-issue-in-spark/]. Eu tenho um RDD com partições 202092, que lê um conjunto de dados criado por outras ...

2 a resposta

Leia JSON com várias linhas no Apache Spark

Eu estava tentando usar um arquivo JSON como um pequeno banco de dados. Depois de criar uma tabela de modelos no DataFrame, consultei-a com SQL e obtive uma exceção. Aqui está o meu código: val df = sqlCtx.read.json("/path/to/user.json") ...

4 a resposta

java.lang.OutOfMemoryError: Não foi possível adquirir 100 bytes de memória, obteve 0

Estou invocando o Pyspark com Spark 2.0 no modo local com o seguinte comando: pyspark --executor-memory 4g --driver-memory 4gO quadro de dados de entrada está sendo lido de um arquivo tsv e possui 580 K x 28 colunas. Estou fazendo ...

1 a resposta

LinearRegression scala.MatchError:

Estou recebendo um scala.MatchError ao usar um ParamGridBuilder no Spark 1.6.1 e 2.0 val paramGrid = new ParamGridBuilder() .addGrid(lr.regParam, Array(0.1, 0.01)) .addGrid(lr.fitIntercept) .addGrid(lr.elasticNetParam, Array(0.0, 0.5, ...