Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Como aplicar uma função a uma coluna de um Spark DataFrame?

Vamos supor que temos um Spark DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFramecom o seguinte esquema df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array (nullable = true) ...

4 a resposta

Tabela de quadros de dados Spark do UPSERT para o Postgres

Estou usando o Apache Spark DataFrames para unir duas fontes de dados e obter o resultado como outro DataFrame. Eu quero gravar o resultado em outra tabela do Postgres. Eu vejo esta opção: myDataFrame.write.jdbc(url, table, ...

3 a resposta

erro de faísca ao carregar arquivos do curinga S3

Estou usando o shell pyspark e tentando ler dados do S3 usando o recurso curinga de arquivo do spark, mas estou recebendo o seguinte erro: Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 1.2.0 ...

2 a resposta

Como converter DataFrame para Dataset no Apache Spark em Java?

Posso converter o DataFrame para o Dataset no Scala com muita facilidade: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchemamas na versão Java não sei como converter ...

5 a resposta

Spark 1.6 - Falha ao localizar o binário winutils no caminho binário do hadoop

Eu sei que existe um post muito semelhante a este (Falha ao localizar o binário winutils no caminho binário do hadoop [https://stackoverflow.com/questions/19620642/failed-to-locate-the-winutils-binary-in-the-hadoop-binary-path] ), no entanto, ...

11 a resposta

Como vincular o PyCharm ao PySpark?

Eu sou novo no apache spark e, aparentemente, instalei o apache-spark com homebrew no meu macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 ...

1 a resposta

Como particionar RDIS do pyspark com funções R

import rpy2.robjects as robjects dffunc = sc.parallelize([(0,robjects.r.rnorm),(1,robjects.r.runif)]) dffunc.collect() Saídas [(0, <rpy2.rinterface.SexpClosure - Python:0x7f2ecfc28618 / R:0x26abd18>), (1, <rpy2.rinterface.SexpClosure - ...

5 a resposta

Spark, ML, StringIndexer: manipulação de etiquetas invisíveis

Meu objetivo é construir um classificador multicalss. Criei um pipeline para extração de recursos e inclui, como primeira etapa, um transformador StringIndexer para mapear cada nome de classe para um rótulo, esse rótulo será usado na etapa de ...

2 a resposta

SPARK, ML, Tuning, CrossValidator: acesse as métricas

Para criar um classificador multiclasse NaiveBayes, estou usando um CrossValidator para selecionar os melhores parâmetros no meu pipeline: val cv = new CrossValidator() .setEstimator(pipeline) .setEstimatorParamMaps(paramGrid) ...

1 a resposta

O trabalho do Spark Mlib FPGrowth falha com erro de memória

Eu tenho um caso de uso bastante simples, mas um conjunto de resultados potencialmente muito grande. Meu código faz o seguinte (no shell pyspark): from pyspark.mllib.fpm import FPGrowth data ...