Resultados da pesquisa a pedido "apache-spark"
Spark Scala: Como converter Dataframe [vetor] para DataFrame [f1: Duplo,…, fn: Duplo)]
Acabei de usar o Standard Scaler para normalizar meus recursos para um aplicativo ML. Depois de selecionar os recursos dimensionados, desejo convertê-lo novamente em um quadro de dados de Doubles, embora o comprimento dos meus vetores seja ...
Spark 2.0.0 lendo dados json com esquema variável
Estou tentando processar o valor de um mês de tráfego de site, que é armazenado em um bucket S3 como json (um objeto json por linha / tráfego de site atingido). A quantidade de dados é grande o suficiente para que eu não possa pedir ao Spark para ...
Como contar ocorrências de cada valor distinto para cada coluna em um dataframe?
edf.select("x").distinct.show() mostra os valores distintos que estão presentes nox coluna deedf Quadro de dados. Existe um método eficiente para mostrar também o número de vezes que esses valores distintos ocorrem no quadro de dados? (conte ...
Como carregar dados em pedaços de um dataframe do pandas para um spark dataframe
Eu li dados em pedaços através de uma conexão pyodbc usando algo como isto: import pandas as pd import pyodbc conn = pyodbc.connect("Some connection Details") sql = "SELECT * from TABLES;" df1 = pd.read_sql(sql,conn,chunksize=10) Agora eu quero ...
O log de variável local definido em um escopo anexo deve ser final ou efetivamente final
Eu sou novo no lambda e Java8. Estou enfrentando o seguinte erro. O log de variável local definido em um escopo anexo deve ser final ou efetivamente final public JavaRDD<String> modify(JavaRDD<String> filteredRdd) { filteredRdd.map(log -> { ...
Como visualizar os logs de um trabalho de faísca depois de concluído e o contexto fechado?
eu estou correndopyspark, spark 1.3, standalone mode, client mode. Estou tentando investigar meu trabalho centelhado, olhando para os trabalhos do passado e comparando-os. Quero visualizar os logs, as definições de configuração nas quais os ...
Como equilibrar meus dados entre as partições?
Editar: A resposta ajuda, mas descrevi minha solução em:problema memoryOverhead no Spark [https://gsamaras.wordpress.com/code/memoryoverhead-issue-in-spark/]. Eu tenho um RDD com partições 202092, que lê um conjunto de dados criado por outras ...
Leia JSON com várias linhas no Apache Spark
Eu estava tentando usar um arquivo JSON como um pequeno banco de dados. Depois de criar uma tabela de modelos no DataFrame, consultei-a com SQL e obtive uma exceção. Aqui está o meu código: val df = sqlCtx.read.json("/path/to/user.json") ...
java.lang.OutOfMemoryError: Não foi possível adquirir 100 bytes de memória, obteve 0
Estou invocando o Pyspark com Spark 2.0 no modo local com o seguinte comando: pyspark --executor-memory 4g --driver-memory 4gO quadro de dados de entrada está sendo lido de um arquivo tsv e possui 580 K x 28 colunas. Estou fazendo ...
LinearRegression scala.MatchError:
Estou recebendo um scala.MatchError ao usar um ParamGridBuilder no Spark 1.6.1 e 2.0 val paramGrid = new ParamGridBuilder() .addGrid(lr.regParam, Array(0.1, 0.01)) .addGrid(lr.fitIntercept) .addGrid(lr.elasticNetParam, Array(0.0, 0.5, ...