Resultados da pesquisa a pedido "apache-spark"
Como importar o pyspark no anaconda
Estou tentando importar e usarpyspark com anaconda. Após instalar o faísca e definir o$SPARK_HOME variável tentei: $ pip install pysparkIsso não vai funcionar (é claro), porque eu descobri que preciso tel python para procurarpyspark ...
Como selecionar a primeira linha de cada grupo?
Eu tenho um DataFrame gerado da seguinte maneira: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc))Os resultados são parecidos com: +----+--------+----------+ |Hour|Category|TotalValue| ...
SparkSQL: soma condicional usando duas colunas
Espero que você possa me ajudar com isto. Eu tenho um DF da seguinte maneira: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...
Spark, Scala, DataFrame: crie vetores de recursos
eu tenho umDataFrame que se parece com segue: userID, category, frequency 1,cat1,1 1,cat2,3 1,cat9,5 2,cat4,6 2,cat9,2 2,cat10,1 3,cat1,5 3,cat7,16 3,cat8,2O número de categorias distintas é 10 e eu gostaria de criar um vetor de recurso para ...
Diferença entre filtro e onde no scala spark sql
Eu tentei os dois, mas funciona da mesma forma exemplo val items = List(1, 2, 3)usando filtro employees.filter($"emp_id".isin(items:_*)).showusando onde employees.where($"emp_id".isin(items:_*)).showO resultado é o mesmo para os ...
Como posso criar um Spark DataFrame a partir de uma matriz aninhada do elemento struct?
Eu li um arquivo JSON no Spark. Este arquivo tem a seguinte estrutura: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable = true) |-- search: struct ...
Como definir uma função de agregação personalizada para somar uma coluna de vetores?
Eu tenho um DataFrame de duas colunas,ID do tipoInt eVec do tipoVector (org.apache.spark.mllib.linalg.Vector) O DataFrame é semelhante a seguir: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] ....Eu ...
Esquema Avro para desencadear StructType
Este é efetivamente o mesmo que o meupergunta anterior [https://stackoverflow.com/questions/33807145/evolving-a-schema-with-spark-dataframe/] , mas usando Avro em vez de JSON como formato de dados. Estou trabalhando com um quadro de dados Spark ...
Executando o arquivo jar do aplicativo no envio de spark em uma instância de cluster do google dataproc
Estou executando um arquivo .jar que contém todas as dependências necessárias. Uma dessas dependências écom.google.common.util.concurrent.RateLimiter e já verifiquei se o arquivo de classe está nesse arquivo .jar. Infelizmente, quando clico no ...
Como o número de partições afeta `wholeTextFiles` e` textFiles`?
Na faísca, eu entendo como usarwholeTextFiles etextFiles, mas não tenho certeza de qual usar quando. Aqui está o que eu sei até agora: Ao lidar com arquivos que não são divididos por linha, deve-se usarwholeTextFiles, caso contrário, ...