Resultados da pesquisa a pedido "apache-spark"

5 a resposta

Como importar o pyspark no anaconda

Estou tentando importar e usarpyspark com anaconda. Após instalar o faísca e definir o$SPARK_HOME variável tentei: $ pip install pysparkIsso não vai funcionar (é claro), porque eu descobri que preciso tel python para procurarpyspark ...

8 a resposta

Como selecionar a primeira linha de cada grupo?

Eu tenho um DataFrame gerado da seguinte maneira: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc))Os resultados são parecidos com: +----+--------+----------+ |Hour|Category|TotalValue| ...

1 a resposta

SparkSQL: soma condicional usando duas colunas

Espero que você possa me ajudar com isto. Eu tenho um DF da seguinte maneira: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...

3 a resposta

Spark, Scala, DataFrame: crie vetores de recursos

eu tenho umDataFrame que se parece com segue: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 3,cat1,5 3,cat7,16 3,cat8,2O número de categorias distintas é 10 e eu gostaria de criar um vetor de recurso para ...

3 a resposta

Diferença entre filtro e onde no scala spark sql

Eu tentei os dois, mas funciona da mesma forma exemplo val items = List(1, 2, 3)usando filtro employees.filter($"emp_id".isin(items:_*)).showusando onde employees.where($"emp_id".isin(items:_*)).showO resultado é o mesmo para os ...

3 a resposta

Como posso criar um Spark DataFrame a partir de uma matriz aninhada do elemento struct?

Eu li um arquivo JSON no Spark. Este arquivo tem a seguinte estrutura: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable = true) |-- search: struct ...

2 a resposta

Como definir uma função de agregação personalizada para somar uma coluna de vetores?

Eu tenho um DataFrame de duas colunas,ID do tipoInt eVec do tipoVector (org.apache.spark.mllib.linalg.Vector) O DataFrame é semelhante a seguir: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] ....Eu ...

2 a resposta

Esquema Avro para desencadear StructType

Este é efetivamente o mesmo que o meupergunta anterior [https://stackoverflow.com/questions/33807145/evolving-a-schema-with-spark-dataframe/] , mas usando Avro em vez de JSON como formato de dados. Estou trabalhando com um quadro de dados Spark ...

1 a resposta

Executando o arquivo jar do aplicativo no envio de spark em uma instância de cluster do google dataproc

Estou executando um arquivo .jar que contém todas as dependências necessárias. Uma dessas dependências écom.google.common.util.concurrent.RateLimiter e já verifiquei se o arquivo de classe está nesse arquivo .jar. Infelizmente, quando clico no ...

1 a resposta

Como o número de partições afeta `wholeTextFiles` e` textFiles`?

Na faísca, eu entendo como usarwholeTextFiles etextFiles, mas não tenho certeza de qual usar quando. Aqui está o que eu sei até agora: Ao lidar com arquivos que não são divididos por linha, deve-se usarwholeTextFiles, caso contrário, ...