Resultados da pesquisa a pedido "apache-spark-2.0"

1 a resposta

Esquema para o tipo Qualquer não é suportado

Estou tentando criar um UDF spark para extrair um mapa de pares (chave, valor) de uma classe de caso definida pelo usuário. A função scala parece funcionar bem, mas quando tento convertê-la em uma UDF no spark2.0, estou executando o erro ...

2 a resposta

Conjunto de dados Spark 2.0 vs DataFrame

começando com o spark 2.0.1 eu tenho algumas perguntas. Eu li muita documentação, mas até agora não consegui encontrar respostas suficientes: Qual é a diferença entredf.select("foo")df.select($"foo")eu entendi ...

1 a resposta

Classe de caso Scala que ignora a importação no shell Spark

Espero que haja uma resposta óbvia para esta pergunta! Acabei de atualizar para o Spark v2.0 e tenho um problema estranho com ofaísca (Versão Scala 2.11). Se eu inserir o seguinte Scala mínimo, import java.sql.Timestamp case class ...

3 a resposta

Lendo arquivos csv com campos entre aspas contendo vírgulas incorporadas

Estou lendo um arquivo csv no Pyspark da seguinte maneira: df_raw=spark.read.option("header","true").csv(csv_path)No entanto, o arquivo de dados citou campos com vírgulas incorporadas, que não devem ser tratados como vírgulas. Como posso lidar ...

6 a resposta

Como criar SparkSession a partir do SparkContext existente

Eu tenho um aplicativo Spark que usando a nova API Spark 2.0 comSparkSession. Estou construindo esse aplicativo em cima de outro aplicativo que está usandoSparkContext. Eu gostaria de passarSparkContext para o meu aplicativo ...

2 a resposta

Apache Spark vs Apache Spark 2 [fechado]

Quais são as melhorias que o Apache Spark2 traz em comparação com o Apache Spark? Do ponto de vista da arquiteturaDo ponto de vista da aplicaçãoou mais

1 a resposta

Por que o uso do cache nos conjuntos de dados de streaming falha com "AnalysisException: as consultas com fontes de streaming devem ser executadas com writeStream.start ()"?

SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-test") .getOrCreate .readStream .schema(schema) ...

2 a resposta

Como converter um WrappedArray [WrappedArray [Float]] para Array [Array [Float]] em faísca (scala)

Estou usando o Spark 2.0. Eu tenho uma coluna do meu dataframe contendo umWrappedArray de WrappedArrays of Float. Um exemplo de uma linha seria: [[1.0 2.0 2.0][6.0 5.0 2.0][4.0 2.0 3.0]]Estou tentando transformar esta coluna em ...

1 a resposta

Como executar várias instâncias do Spark 2.0 de uma vez (em vários notebooks Jupyter)?

Eu tenho um script que convenientemente me permite usar o Spark em um Notebook Jupyter. Isso é ótimo, exceto quando executo comandos spark em um segundo notebook (por exemplo, para testar algum trabalho de rascunho). Recebo uma mensagem de erro ...

2 a resposta

Particionamento do parquet Spark: grande número de arquivos

Estou tentando aproveitar o particionamento de faísca. Eu estava tentando fazer algo como data.write.partitionBy("key").parquet("/location")O problema aqui em cada partição cria um grande número de arquivos parquet, que resultam em ...