Resultados da pesquisa a pedido "apache-spark"
RDD.union vs SparkContex.union
Qual é a diferença entre reduce(lambda x,y: x.union(y), myRDDlist)que chamaRDD.union [http://spark.apache.org/docs/1.2.0/api/scala/index.html#org.apache.spark.rdd.RDD] e sc.union(myRDDlist)que ...
É possível usar o json4s 3.2.11 com o Spark 1.3.0?
O Spark depende do json4s 3.2.10, mas esta versão possui vários bugs e preciso usar o 3.2.11. Eu adicionei a dependência do json4s-native 3.2.11 ao build.sbt e tudo foi compilado corretamente. Mas quando eu envio meu JAR com centelha, ele me ...
Apache-Spark: Para que serve o mapa (_._ 2)?
Eu li o código fonte de um projeto, encontrei: val sampleMBR = inputMBR.map(_._2).sampleinputMBR é uma tupla. a funçãomapA definição de é: map[U classTag](f:T=>U):RDD[U]parece quemap(_._2) é a abreviação demap(x => (x._2)). Alguém pode me ...
Mente explodida: método RDD.zip ()
eu sódescoberto [https://stackoverflow.com/q/29265616/850781]aRDD.zip() [http://spark.apache.org/docs/latest/api/java/org/apache/spark/rdd/RDD.html#zip%28org.apache.spark.rdd.RDD,%20scala.reflect.ClassTag%29] método e não consigo imaginar o ...
Especifique várias alterações de tipo de dados de colunas para diferentes tipos de dados no pyspark
Eu tenho um DataFrame (df), que consiste em mais de 50 colunas e diferentes tipos de dados, como df3.printSchema() CtpJobId: string (nullable = true) |-- TransformJobStateId: string (nullable = true) |-- LastError: string (nullable = true) ...
Como usar o valor constante no UDF do Spark SQL (DataFrame)
Eu tenho um quadro de dados que incluitimestamp. Para agregar por hora (minuto, hora ou dia), tentei como: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period = 1 hour }) val df: ...
TaskSchedulerImpl: o trabalho inicial não aceitou nenhum recurso;
Aqui está o que estou tentando fazer. Criei dois nós do cluster corporativo DataStax, além dos quais criei um programa java para obter a contagem de uma tabela (tabela de banco de dados Cassandra). Este programa foi construído em eclipse, que é ...
Anexar uma coluna ao Data Frame no Apache Spark 1.3
É possível e qual seria o método mais eficiente para adicionar uma coluna ao Data Frame? Mais especificamente, a coluna pode servir como IDs de linha para o quadro de dados existente. Em um caso simplificado, lendo um arquivo e não ...
Como alterar os tipos de coluna no DataFrame do Spark SQL?
Suponha que eu esteja fazendo algo como: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: ...
Como converter objeto rdd em dataframe no spark
Como posso converter um RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) para um Dataframeorg.apache.spark.sql.DataFrame. Eu converti um dataframe para rdd usando.rdd. Depois de processá-lo, quero-o novamente no dataframe. Como posso ...