Resultados da pesquisa a pedido "apache-spark"

0 a resposta

Agregação personalizada do Spark: collect_list + UDF vs UDAF

Geralmente, tenho a necessidade de realizar agregações personalizadas em quadros de dados no spark 2.1 e usei essas duas abordagens: usando groupby / collect_list para obter todos os valores em uma única linha e aplique um UDF para agregar os ...

9 a resposta

Spark - repartição () vs coalescência ()

De acordo com o Learning Spark Lembre-se de que o reparticionamento dos dados é uma operação bastante cara. O Spark também possui uma versão otimizada da repartição () chamada coalesce () que permite evitar a movimentação de dados, mas apenas se ...

1 a resposta

Obter o tamanho / comprimento de uma coluna da matriz

Eu sou novo na programação Scala e esta é a minha pergunta: Como contar o número de strings para cada linha? Meu Dataframe é composto por uma única coluna do tipo Array [String]. friendsDF: org.apache.spark.sql.DataFrame = [friends: array<string>]

1 a resposta

A versão de Jackson é muito antiga

Eu tenho o seguintebuild.sbt Arquivo: name := "myProject" version := "1.0" scalaVersion := "2.11.8" javaOptions ++= Seq("-Xms512M", "-Xmx2048M", "-XX:MaxPermSize=2048M", "-XX:+CMSClassUnloadingEnabled") dependencyOverrides ++= ...

1 a resposta

Por que o OneHotEncoder do Spark descarta a última categoria por padrão?

Gostaria de entender o racional por trás do OneHotEncoder do Spark descartando a última categoria por padrão. Por exemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...

2 a resposta

Bluemix spark-submit - Como proteger credenciais necessárias ao meu frasco Scala

Eu tenho um aplicativo Spark que estou enviando para o Bluemix Spark Cluster. Ele lê de um banco de dados DASHDB e grava os resultados no Cloudant. O código acessa o DASHDB usando Spark e JDBC. O ID do usuário e a senha do banco de dados DASHDB ...

1 a resposta

Correspondência eficiente de strings no Apache Spark

Usando uma ferramenta de OCR, extraí textos de capturas de tela (cerca de 1 a 5 frases cada). No entanto, ao verificar manualmente o texto extraído, notei vários erros que ocorrem periodicamente. Dado o texto "Olá! Gosto muito do Spark ❤!", ...

1 a resposta

Adivinhador de tipo de dados Spark UDAF

Queria levar algo assim https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java]e crie um Hive UDAF para criar uma função agregada que retorna uma ...

2 a resposta

PySpark - obtém o número da linha para cada linha em um grupo

Usando o pyspark, eu gostaria de poder agrupar um quadro de dados spark, classificar o grupo e fornecer um número de linha. assim Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se tornaria Group Date row_num A 2000 0 A 2002 1 A 2007 2 B 1999 0 B ...

2 a resposta

com.fasterxml.jackson.databind.JsonMappingException: a versão do Jackson é muito antiga 2.5.3

Meu sistema operacional é o OS X 10.11.6. Estou executando o Spark 2.0, Zeppelin 0.6, Scala 2.11 Quando executo esse código no Zeppelin, recebo uma exceção de Jackson. Quando executo esse código no spark-shell - sem exceção. val filestream = ...