Resultados da pesquisa a pedido "apache-spark-2.0"
Esquema para o tipo Qualquer não é suportado
Estou tentando criar um UDF spark para extrair um mapa de pares (chave, valor) de uma classe de caso definida pelo usuário. A função scala parece funcionar bem, mas quando tento convertê-la em uma UDF no spark2.0, estou executando o erro ...
Conjunto de dados Spark 2.0 vs DataFrame
começando com o spark 2.0.1 eu tenho algumas perguntas. Eu li muita documentação, mas até agora não consegui encontrar respostas suficientes: Qual é a diferença entredf.select("foo")df.select($"foo")eu entendi ...
Classe de caso Scala que ignora a importação no shell Spark
Espero que haja uma resposta óbvia para esta pergunta! Acabei de atualizar para o Spark v2.0 e tenho um problema estranho com ofaísca (Versão Scala 2.11). Se eu inserir o seguinte Scala mínimo, import java.sql.Timestamp case class ...
Lendo arquivos csv com campos entre aspas contendo vírgulas incorporadas
Estou lendo um arquivo csv no Pyspark da seguinte maneira: df_raw=spark.read.option("header","true").csv(csv_path)No entanto, o arquivo de dados citou campos com vírgulas incorporadas, que não devem ser tratados como vírgulas. Como posso lidar ...
Como criar SparkSession a partir do SparkContext existente
Eu tenho um aplicativo Spark que usando a nova API Spark 2.0 comSparkSession. Estou construindo esse aplicativo em cima de outro aplicativo que está usandoSparkContext. Eu gostaria de passarSparkContext para o meu aplicativo ...
Apache Spark vs Apache Spark 2 [fechado]
Quais são as melhorias que o Apache Spark2 traz em comparação com o Apache Spark? Do ponto de vista da arquiteturaDo ponto de vista da aplicaçãoou mais
Por que o uso do cache nos conjuntos de dados de streaming falha com "AnalysisException: as consultas com fontes de streaming devem ser executadas com writeStream.start ()"?
SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-test") .getOrCreate .readStream .schema(schema) ...
Como converter um WrappedArray [WrappedArray [Float]] para Array [Array [Float]] em faísca (scala)
Estou usando o Spark 2.0. Eu tenho uma coluna do meu dataframe contendo umWrappedArray de WrappedArrays of Float. Um exemplo de uma linha seria: [[1.0 2.0 2.0][6.0 5.0 2.0][4.0 2.0 3.0]]Estou tentando transformar esta coluna em ...
Como executar várias instâncias do Spark 2.0 de uma vez (em vários notebooks Jupyter)?
Eu tenho um script que convenientemente me permite usar o Spark em um Notebook Jupyter. Isso é ótimo, exceto quando executo comandos spark em um segundo notebook (por exemplo, para testar algum trabalho de rascunho). Recebo uma mensagem de erro ...
Particionamento do parquet Spark: grande número de arquivos
Estou tentando aproveitar o particionamento de faísca. Eu estava tentando fazer algo como data.write.partitionBy("key").parquet("/location")O problema aqui em cada partição cria um grande número de arquivos parquet, que resultam em ...
Página 1 do 2