Resultados da pesquisa a pedido "apache-spark-sql"
Uso do objeto Python personalizado no Pyspark UDF
Ao executar o seguinte código PySpark: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients)) udf_parse_ingredients ...
PySpark 2.1: Importando módulo com quebras de UDF Hive connectivity
Atualmente, estou trabalhando com o Spark 2.1 e tenho um script principal que chama um módulo auxiliar que contém todos os meus métodos de transformação. Em outras palavras: main.py helper.pyNo topo da minhahelper.py file Tenho vários UDFs ...
Como enviar um Dataframe Spark para a pesquisa elástica (Pyspark)
Iniciante ES Pergunta aqui Qual é o fluxo de trabalho ou as etapas para enviar um Spark Dataframe para a Elastic Search? A partir de pesquisas, acredito que preciso usar ospark.newAPIHadoopFile ...
Como criar um conjunto de dados de mapas?
Estou usando o Spark 2.2 e estou tendo problemas ao tentar ligarspark.createDataset com umSeq doMap. Código e saída da minha sessão do Spark Shell a seguir: // createDataSet on Seq[T] where T = Int works scala> spark.createDataset(Seq(1, 2, ...
Contar o número de linhas duplicadas no SPARKSQL
Eu tenho requisito onde eu preciso contar o número de linhas duplicadas nas tabelas SparkSQL for Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row ...
Como proteger senha e nome de usuário no Spark (como para conexões JDBC / acessar bancos de dados RDBMS)?
Temos um caso de uso em que precisamos exportar dados do HDFS para um RDBMS. Eu vi issoexemplo [https://docs.databricks.com/spark/latest/data-sources/sql-databases.html]. Aqui eles armazenam o nome de usuário e a senha no código. Existe alguma ...
Mediana / quantis dentro do grupo PySpark
Gostaria de calcular quantis de grupo em um dataframe Spark (usando PySpark). Um resultado aproximado ou exato seria bom. Eu prefiro uma solução que eu possa usar dentro do contexto degroupBy / agg, para que eu possa misturá-lo com outras funções ...
ERRO yarn.ApplicationMaster: exceção não capturada: java.util.concurrent.TimeoutException: futuros atingiram o tempo limite após 100000 milissegundos [duplicado]
Esta pergunta já tem uma resposta aqui: Por que a associação falha com "java.util.concurrent.TimeoutException: Futuros atingiram o tempo limite após [300 ...
Aplicar condição de filtro no quadro de dados criado a partir de JSON
Estou trabalhando no quadro de dados criado pelo JSON e quero aplicar a condição de filtro no quadro de dados. val jsonStr = """{ "metadata": [{ "key": 84896, "value": 54 },{ "key": 1234, "value": 12 }]}""" val rdd = sc.parallelize(Seq(jsonStr)) ...
Como converter um DataFrame simples em um DataSet Spark Scala com classe de caso?
Estou tentando converter um DataFrame simples em um DataSet do exemplo no Spark: https://spark.apache.org/docs/latest/sql-programming-guide.html [https://spark.apache.org/docs/latest/sql-programming-guide.html] case class Person(name: String, ...