Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Como calcular a diferença de data no pyspark?

Eu tenho dados como este: df = sqlContext.createDataFrame([ ('1986/10/15', 'z', 'null'), ('1986/10/15', 'z', 'null'), ('1986/10/15', 'c', 'null'), ('1986/10/15', 'null', 'null'), ('1986/10/16', 'null', '4.0')], ('low', 'high', 'normal'))Quero ...

1 a resposta

Como gerar arquivo parquet usando Java puro (incluindo tipos de data e decimais) e fazer upload para o S3 [Windows] (sem HDFS)

Recentemente, eu tinha um requisito em que precisava gerar arquivos Parquet que pudessem ser lidos pelo Apache Spark usando apenas Java (usando nenhuma instalação de software adicional, como: Apache Drill, Hive, Spark, etc.). Os arquivos ...

2 a resposta

Causado por: java.lang.NullPointerException at org.apache.spark.sql.Dataset

Abaixo eu forneço meu código. Eu itero sobre o DataFrameprodRows e para cadaproduct_PK Encontro uma sub-lista correspondente de product_PKs deprodRows. numRecProducts = 10 var listOfProducts: Map[Long,Array[(Long, Int)]] = ...

4 a resposta

Por que o spark-shell falha com "era inesperado neste momento"?

Estou recebendo o seguinte erro ao executar o comando spark-shell: [/imgs/j7s6c.png] Eu baixei o arquivo spark-2.1.1-bin-hadoop2.7.tgz de http://spark.apache.org/downloads.html [http://spark.apache.org/downloads.html], extraiu o arquivo tar e ...

1 a resposta

Ajustar um quadro de dados ao randomForest pyspark

eu tenho umDataFrame que se parece com isso: +--------------------+------------------+ | features| labels | +--------------------+------------------+ |[-0.38475, 0.568...]| label1 | |[0.645734, 0.699...]| label2 | | ..... | ... ...

3 a resposta

Como dividir a coluna de valores múltiplos em linhas separadas usando o Dataset digitado?

Estou enfrentando um problema de como dividir uma coluna com vários valores, ou seja,List[String], em linhas separadas. O conjunto de dados inicial possui os seguintes tipos:Dataset[(Integer, String, Double, ...

1 a resposta

R Brilhante e Spark: como liberar recursos Spark?

Digamos que temos umAplicativo brilhantequal éimplantado em um servidor brilhante. Esperamos que o aplicativo seja usado por vários usuários pelo navegador da web, como de costume. O aplicativo brilhanteserver.R inclui algunssparklyr código de ...

1 a resposta

Como comparar dois quadros de dados e colunas de impressão diferentes no scala

Temos dois quadros de dados aqui: o quadro de dados esperado: +------+---------+--------+----------+-------+--------+ |emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site| +------+---------+--------+----------+-------+--------+ | 3| ...

1 a resposta

Obtendo rótulos dos estágios StringIndexer no pipeline no Spark (pyspark)

estou usandoSpark epyspark e eu tenho umpipeline configurado com um monte deStringIndexer objetos que eu uso para codificar as colunas da string em colunas de índices: indexers = [StringIndexer(inputCol=column, outputCol=column ...

1 a resposta

Analítico no Spark Dataframe

Nesse problema, temos dois gerentes M1 e M2. Na equipe do gerente M1 temos dois funcionários e1 & e2 e na equipe do M2 temos dois funcionários e4 & e5. A seguir está a hierarquia de gerente e funcionário. 1) M1 a. e1 b. e2 2) M2 a. e4 b. e5E ...