Resultados da pesquisa a pedido "apache-spark"
O Apache Spark lê S3: não é possível capturar objetos thread.lock
Então, eu quero que meu Spark App leia algum texto do Amazon S3. Escrevi o seguinte script simples: import boto3 s3_client = boto3.client('s3') text_keys = ["key1.txt", "key2.txt"] data = sc.parallelize(text_keys).flatMap(lambda ...
Melhor abordagem do Spark Consultar Dataframe para melhorar o desempenho
Dataframe A (milhões de registros), uma das colunas é create_date, modified_date Os registros do Dataframe B 500 possuem data de início e data de término Abordagem atual: Select a.*,b.* from a join b on a.create_date between start_date and ...
Como servir um modelo Spark MLlib?
Estou avaliando ferramentas para aplicativos baseados em ML de produção e uma das nossas opções é o Spark MLlib, mas tenho algumas dúvidas sobre como servir um modelo depois de treinado? Por exemplo, no Azure ML, uma vez treinado, o modelo é ...
Como fatiar e somar elementos da coluna array?
Eu gostaria desum (ou execute outras funções agregadas também) na coluna da matriz usando o SparkSQL. Eu tenho uma mesa como +-------+-------+---------------------------------+ |dept_id|dept_nm| emp_details| ...
Juntando quadros de dados Spark na chave
Eu construí dois quadros de dados. Como podemos juntar vários quadros de dados Spark? Por exemplo : PersonDf, ProfileDf com uma coluna comum comopersonId como (tecla). Agora, como podemos ter um Dataframe combinandoPersonDf eProfileDf?
Spark: desempenho da consulta PySpark + Cassandra
Eu configurei o Spark 2.0 e o Cassandra 3.0 em uma máquina local (8 núcleos, 16 GB de RAM) para fins de teste e editeispark-defaults.conf do seguinte modo: spark.python.worker.memory 1g spark.executor.cores 4 spark.executor.instances ...
como ler json com esquema no spark dataframes / spark sql
sql / dataframes, por favor me ajude ou forneça uma boa sugestão sobre como ler este json { "billdate":"2016-08-08', "accountid":"xxx" "accountdetails":{ "total":"1.1" "category":[ { "desc":"one", "currentinfo":{ "value":"10" }, "subcategory":[ ...
Se podemos atualizar o modelo existente no spark-ml / spark-mllib?
Estamos usando o spark-ml para construir o modelo a partir dos dados existentes. Novos dados são fornecidos diariamente. Existe uma maneira de apenas poder ler os novos dados e atualizar o modelo existente sem precisar ler todos os dados e ...
Como salvar um DataFrame como CSV compactado (compactado com gz)?
Eu uso Spark 1.6.0 e Scala. Quero salvar um DataFrame como formato CSV compactado. Aqui está o que eu tenho até agora (suponha que eu já tenhadf esc ComoSparkContext): //set the conf to the codec I ...
Número de partições do Spark Dataframe
Alguém pode explicar sobre o número de partições que serão criadas para um Spark Dataframe. Eu sei que para um RDD, ao criá-lo, podemos mencionar o número de partições como abaixo. val RDD1 = sc.textFile("path" , 6)Mas, para o quadro de dados ...