Resultados da pesquisa a pedido "apache-spark"
Leia e grave dados no cassandra usando a API Java apache flink
Pretendo usar o apache flink para ler / gravar dados no cassandra usando flink. Eu estava esperando usarflink-connector-cassandra [https://github.com/apache/flink/tree/master/flink-connectors/flink-connector-cassandra] , Não encontro boa ...
Spark Container & Executor OOMs durante `replaceByKey`
Estou executando um trabalho Spark no EMR da Amazon no modo cliente com YARN, usando o pyspark, para processar dados de dois arquivos de entrada (totalizando 200 GB) de tamanho. O trabalho une os dados (usandoreduceByKey), faz alguns mapas e ...
Usando o Scala 2.12 com o Spark 2.x
At the Spark 2.1docs [https://spark.apache.org/docs/latest/]mencionou isso O Spark é executado em Java 7+, Python 2.6 + / 3.4 + e R 3.1+. Para a API Scala, o Spark 2.1.0 usa o Scala 2.11. Você precisará usar uma versão compatível do Scala ...
Transferir dados do banco de dados para o Spark usando o sparklyr
Eu tenho alguns dados em um banco de dados e quero trabalhar com eles no Spark, usandosparklyr. Eu posso usar umDBIcom base em dados para importar os dados do banco de dados para o R dbconn <- dbConnect(<some connection args>) data_in_r <- ...
Como fazer previsões com o Sklearn Model dentro do Spark?
Eu treinei um modelo em python usando o sklearn. Como podemos usar o mesmo modelo para carregar no Spark e gerar previsões em um RDD do spark?
Quadros de dados Scala / Spark: encontre o nome da coluna correspondente ao máximo
No Scala / Spark, com um quadro de dados: val dfIn = sqlContext.createDataFrame(Seq( ("r0", 0, 2, 3), ("r1", 1, 0, 0), ("r2", 0, 2, 2))).toDF("id", "c0", "c1", "c2")Eu gostaria de calcular uma nova colunamaxCol segurando onomeda coluna ...
Tipo de hora int96 do Spark
Quando você cria uma coluna de carimbo de data / hora no spark e salva no parquet, obtém um tipo de coluna inteira de 12 bytes (int96); Eu recolho os dados são divididos em 6 bytes para o dia juliano e 6 bytes para nanossegundos dentro do ...
spark createOrReplaceTempView vs createGlobalTempView
O Spark Dataset 2.0 fornece duas funçõescreateOrReplaceTempView ecreateGlobalTempView. Não consigo entender a diferença básica entre as duas funções. De acordo comDocumentos da ...
Como maximizar o valor e manter todas as colunas (para o máximo de registros por grupo)? [duplicado]
Esta pergunta já tem uma resposta aqui: Como selecionar a primeira linha de cada grupo? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 respostasDado o seguinte DataFrame: +----+-----+---+-----+ | uid| k| v|count| ...
No Spark Streaming, existe uma maneira de detectar quando um lote termina?
Eu uso o Spark 1.6.0 com o Cloudera 5.8.3. eu tenho umDStream objeto e muitas transformações definidas em cima dele, val stream = KafkaUtils.createDirectStream[...](...) val mappedStream = stream.transform { ... }.map { ... } ...