Resultados da pesquisa a pedido "pyspark"

2 a resposta

Como obter a saída do console streaming streaming no Zeppelin?

Estou lutando para conseguir oconsole pia trabalhando comStreaming estruturado do PySpark [https://spark.apache.org/docs/2.2.0/structured-streaming-programming-guide.html] quando executado a partir de Zeppelin. Basicamente, não estou vendo ...

2 a resposta

Como dividir uma lista em várias colunas no Pyspark?

Eu tenho: key value a [1,2,3] b [2,3,4]Eu quero: key value1 value2 value3 a 1 2 3 b 2 3 4Parece que em scala eu posso escrever:df.select($"value._1", $"value._2", $"value._3"), mas não é possível em python. Então, existe uma boa maneira de ...

1 a resposta

Ajustar um quadro de dados ao randomForest pyspark

eu tenho umDataFrame que se parece com isso: +--------------------+------------------+ | features| labels | +--------------------+------------------+ |[-0.38475, 0.568...]| label1 | |[0.645734, 0.699...]| label2 | | ..... | ... ...

2 a resposta

Pyspark: alterar o tipo de dados da coluna aninhada

Como podemos alterar o tipo de dados de uma coluna aninhada no Pyspark? Para rxample, como posso alterar o tipo de dados do valor de string para int? Referência:como alterar uma coluna Dataframe do tipo String para Double type ...

2 a resposta

pyspark: contagem distinta em uma janela

Eu apenas tentei fazer um countDistinct em uma janela e recebi este erro: AnalysisException: u'Distinct window functions are not supported: count(distinct color#1926)Existe uma maneira de fazer uma contagem distinta em uma janela ...

1 a resposta

Obtendo rótulos dos estágios StringIndexer no pipeline no Spark (pyspark)

estou usandoSpark epyspark e eu tenho umpipeline configurado com um monte deStringIndexer objetos que eu uso para codificar as colunas da string em colunas de índices: indexers = [StringIndexer(inputCol=column, outputCol=column ...

3 a resposta

Lista ao DataFrame no pyspark

Alguém pode me dizer como converter uma lista contendo seqüências de caracteres em um Dataframe no pyspark. Estou usando o python 3.6 com spark 2.2.1. Acabei de começar a aprender o ambiente spark e meus dados se parecem ...

1 a resposta

Aviso de causa UDF: CachedKafkaConsumer não está sendo executado no UninterruptibleThread (KAFKA-1894)

Em um habitualstruct_kafka_wordcount.py [https://gist.github.com/hrchu/2b2590f2f737ef430ac32b7f8edc15c0]código, Quando divido linhas em palavras porudf como abaixo, my_split = udf(lambda x: x.split(' '), ArrayType(StringType())) words ...

2 a resposta

Como escrever um objeto de conjunto de dados para se destacar no spark java?

Estou lendo o arquivo excel usandocom.crealytics.spark.excelpacote. Abaixo está o código para ler um arquivo excel no spark java. Dataset<Row> SourcePropertSet = sqlContext.read() .format("com.crealytics.spark.excel") .option("location", ...

1 a resposta

Selecionando apenas nomes de colunas numéricas / de seqüência de caracteres de um Spark DF no pyspark

Eu tenho um SparkDataFrame no pyspark (2.1.0) e estou procurando obter apenas os nomes de colunas numéricas ou apenas colunas de seqüência de caracteres. Por exemplo, este é o esquema do meu DF: root |-- Gender: string (nullable = true) |-- ...