Resultados da pesquisa a pedido "apache-spark-sql"

Eu tenho um servidor Ubuntu remoto emlinode.com [http://linode.com]com 4 núcleos e 8G de RAMEu tenho um cluster Spark-2 composto por 1 mestre e 1 escravo no meu servidor Ubuntu remoto.Iniciei o shell PySpark localmente no meu MacBook, conectado ...

apache-spark scala dataframe apache-spark-dataset

1 a resposta

Como obter chaves e valores da coluna MapType no SparkSQL DataFrame

Eu tenho dados em um arquivo de parquet que possui 2 campos:object_id: String ealpha: Map<>. Ele é lido em um quadro de dados no sparkSQL e o esquema se parece com o seguinte: scala> alphaDF.printSchema() root |-- object_id: string (nullable = ...

join apache-spark-dataset apache-spark scala

2 a resposta

Executar uma junção digitada no Scala com conjuntos de dados Spark

Gosto de conjuntos de dados Spark, pois eles me fornecem erros de análise e sintaxe em tempo de compilação e também me permitem trabalhar com getters em vez de nomes / números codificados. A maioria dos cálculos pode ser realizada com as APIs de ...

apache-spark spark-dataframe pyspark pyspark-sql

1 a resposta

Como executar operações matemáticas com duas colunas no dataframe usando o pyspark

Eu tenho dataframe com três colunas "x", "y" e "z" x y z bn 12452 221 mb 14521 330 pl 12563 160 lo 22516 142Eu preciso criar uma outra coluna que é derivada por esta fórmula (m = z / y+z)Portanto, os novos quadros de dados devem ter a seguinte ...

python apache-spark pyspark

1 a resposta

Como selecionar e ordenar várias colunas em um Dataframe Pyspark após uma associação

Desejo selecionar várias colunas do quadro de dados existente (criado após as associações) e gostaria de ordenar os arquivos como minha estrutura de tabela de destino. Como pode ser feito ? A abordagem que usei está abaixo. Aqui eu sou capaz de ...

apache-spark pyspark python pyspark-sql

1 a resposta

PySpark: calcula o máximo de linhas do subconjunto de colunas e adiciona a um quadro de dados existente

Gostaria de calcular o máximo de um subconjunto de colunas para cada linha e adicioná-lo como uma nova coluna para o existenteDataframe. Eu consegui fazer isso de uma maneira muito estranha: def add_colmax(df,subset_columns,colnm): ''' ...

scala apache-spark

1 a resposta

Arrays de mesclagem / combinação de faíscas no grupo

O código Spark a seguir demonstra corretamente o que eu quero fazer e gera a saída correta com um pequeno conjunto de dados de demonstração. Quando executo esse mesmo tipo geral de código em um grande volume de dados de produção, estou tendo ...

java apache-spark

1 a resposta

Como usar o Column.isin em Java?

Estou tentando filtrar um Spark DataFrame usando uma lista em Java. java.util.List<Long> selected = ....; DataFrame result = df.filter(df.col("something").isin(????));O problema é queisin(...) método aceita ScalaSeq ou ...

apache-spark dataframe broadcast

1 a resposta

Qual é o tamanho máximo para um objeto de transmissão no Spark?

Ao usar o Dataframetransmissão [http://spark.apache.org/docs/2.0.0/api/java/org/apache/spark/sql/functions.html#broadcast(org.apache.spark.sql.Dataset)] função ou o ...

apache-spark parquet

1 a resposta

Exceção do Spark ao converter uma tabela MySQL em parquet

Estou tentando converter uma tabela remota do MySQL em um arquivo de parquet usando o spark 1.6.2. O processo é executado por 10 minutos, preenchendo a memória, e começa com estas mensagens: WARN NettyRpcEndpointRef: Error sending message ...

Página 11 do 52

9 101112 13

Resultados da pesquisa a pedido "apache-spark-sql"

Runnning Spark no cluster: o trabalho inicial não aceitou nenhum recurso

Como obter chaves e valores da coluna MapType no SparkSQL DataFrame

Executar uma junção digitada no Scala com conjuntos de dados Spark

Tags populares

Como executar operações matemáticas com duas colunas no dataframe usando o pyspark

Como selecionar e ordenar várias colunas em um Dataframe Pyspark após uma associação

PySpark: calcula o máximo de linhas do subconjunto de colunas e adiciona a um quadro de dados existente

Arrays de mesclagem / combinação de faíscas no grupo

Como usar o Column.isin em Java?

Qual é o tamanho máximo para um objeto de transmissão no Spark?

Exceção do Spark ao converter uma tabela MySQL em parquet

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares