Resultados da pesquisa a pedido "apache-spark"
O Spark especifica várias condições de coluna para ingresso no quadro de dados
Como fornecer mais condições de coluna ao ingressar em dois quadros de dados. Por exemplo, eu quero executar o seguinte: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ...
java.util.Date não é suportado
eu quero escreverRDD paraMYSQL, qualRDD contémjava.util.Date tipo. rdd.map(f=> FeatureData( f.get("name").toString, f.get("value").toString.toDouble, f.get("time").asInstanceOf[Date], f.get("period").toString)) .toDF()NissoRDD a chave detimeO ...
Por que a transmissão por faísca não funciona bem quando uso o App extends?
O primeiro código lança uma exceção de ponteiro nulo. object TryBroadcast extends App{ val conf = new SparkConf().setAppName("o_o") val sc = new SparkContext(conf) val sample = sc.parallelize(1 to 1024) val bro = sc.broadcast(6666) val broSample ...
Como registrar uma função no sqlContext UDF no scala?
Eu tenho um método chamado getAge (timestamp: Long) e quero registrar isso como uma função sql. eu tenho sqlContext.udf.register("getAge",getAge)Mas está me dizendo que eu preciso de argumentos ou uso _ depois, tentei usar _ mas me dá erro. ...
Erro SparkR no sparkR.init (master = “local”) no RStudio
Eu instalei o pacote SparkR da distribuição Spark na biblioteca R. Eu posso chamar o seguinte comando e parece funcionar corretamente:library(SparkR) No entanto, quando tento obter o contexto do Spark usando o código a seguir, sc <- ...
Salvar o quadro de dados Spark como tabela particionada dinâmica no Hive
Eu tenho um aplicativo de exemplo trabalhando para ler arquivos csv em um dataframe. O quadro de dados pode ser armazenado em uma tabela do Hive no formato parquet usando o métododf.saveAsTable(tablename,mode). O código acima funciona bem, mas ...
Diferença entre gravação de conjunto de dados do Spark
estou a usarSpark-Java. Preciso saber se existe alguma diferença (desempenho etc) entre os seguintes métodos de gravação nos Hadoop: ds.write().mode(mode).format("orc").save(path);Ou ds.write().mode(mode).orc(path);Obrigado.
Salvar o quadro de dados no sistema de arquivos local resulta em resultados vazios
Estamos executando o spark 2.3.0 emAWW EMR. Os seguintesDataFrame "df"não está vazio e tem tamanho modesto: scala> df.count res0: Long = 4067O código a seguir funciona bem para escreverdf parahdfs: scala> val hdf = ...
Como forçar o Spark a executar código?
Como forçar o Spark a executar uma chamada para mapear, mesmo que ele ache que não precisa ser executado devido à sua avaliação lenta? Eu tentei colocarcache() com a chamada do mapa, mas isso ainda não funciona. Meu método de mapa, na verdade, ...
Como encontrar medianas e quantis usando o Spark
Como posso encontrar a mediana de umRDD de números inteiros usando um método distribuído, IPython e Spark? oRDD é de aproximadamente 700.000 elementos e, portanto, muito grande para coletar e encontrar a mediana. Esta pergunta é semelhante a ...