Resultados da pesquisa a pedido "apache-spark-sql"

3 a resposta

Uso do objeto Python personalizado no Pyspark UDF

Ao executar o seguinte código PySpark: nlp = NLPFunctions() def parse_ingredients(ingredient_lines): parsed_ingredients = nlp.getingredients_bulk(ingredient_lines)[0] return list(chain.from_iterable(parsed_ingredients)) udf_parse_ingredients ...

1 a resposta

PySpark 2.1: Importando módulo com quebras de UDF Hive connectivity

Atualmente, estou trabalhando com o Spark 2.1 e tenho um script principal que chama um módulo auxiliar que contém todos os meus métodos de transformação. Em outras palavras: main.py helper.pyNo topo da minhahelper.py file Tenho vários UDFs ...

2 a resposta

Como enviar um Dataframe Spark para a pesquisa elástica (Pyspark)

Iniciante ES Pergunta aqui Qual é o fluxo de trabalho ou as etapas para enviar um Spark Dataframe para a Elastic Search? A partir de pesquisas, acredito que preciso usar ospark.newAPIHadoopFile ...

2 a resposta

Como criar um conjunto de dados de mapas?

Estou usando o Spark 2.2 e estou tendo problemas ao tentar ligarspark.createDataset com umSeq doMap. Código e saída da minha sessão do Spark Shell a seguir: // createDataSet on Seq[T] where T = Int works scala> spark.createDataset(Seq(1, 2, ...

1 a resposta

Contar o número de linhas duplicadas no SPARKSQL

Eu tenho requisito onde eu preciso contar o número de linhas duplicadas nas tabelas SparkSQL for Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row ...

3 a resposta

Como proteger senha e nome de usuário no Spark (como para conexões JDBC / acessar bancos de dados RDBMS)?

Temos um caso de uso em que precisamos exportar dados do HDFS para um RDBMS. Eu vi issoexemplo [https://docs.databricks.com/spark/latest/data-sources/sql-databases.html]. Aqui eles armazenam o nome de usuário e a senha no código. Existe alguma ...

3 a resposta

Mediana / quantis dentro do grupo PySpark

Gostaria de calcular quantis de grupo em um dataframe Spark (usando PySpark). Um resultado aproximado ou exato seria bom. Eu prefiro uma solução que eu possa usar dentro do contexto degroupBy / agg, para que eu possa misturá-lo com outras funções ...

2 a resposta

ERRO yarn.ApplicationMaster: exceção não capturada: java.util.concurrent.TimeoutException: futuros atingiram o tempo limite após 100000 milissegundos [duplicado]

Esta pergunta já tem uma resposta aqui: Por que a associação falha com "java.util.concurrent.TimeoutException: Futuros atingiram o tempo limite após [300 ...

2 a resposta

Aplicar condição de filtro no quadro de dados criado a partir de JSON

Estou trabalhando no quadro de dados criado pelo JSON e quero aplicar a condição de filtro no quadro de dados. val jsonStr = """{ "metadata": [{ "key": 84896, "value": 54 },{ "key": 1234, "value": 12 }]}""" val rdd = sc.parallelize(Seq(jsonStr)) ...

2 a resposta

Como converter um DataFrame simples em um DataSet Spark Scala com classe de caso?

Estou tentando converter um DataFrame simples em um DataSet do exemplo no Spark: https://spark.apache.org/docs/latest/sql-programming-guide.html [https://spark.apache.org/docs/latest/sql-programming-guide.html] case class Person(name: String, ...