Resultados da pesquisa a pedido "apache-spark-sql"

Eu estou usando a colméia através do Spark. Eu tenho uma inserção na consulta de tabela particionada no meu código spark. Os dados de entrada estão em 200 + gb. Quando o Spark está gravando em uma tabela particionada, está cuspindo arquivos muito ...

apache-spark scala pyspark python

3 a resposta

Como usar a fonte JDBC para gravar e ler dados no (Py) Spark?

O objetivo desta pergunta é documentar: etapas necessárias para ler e gravar dados usando conexões JDBC no PySpark possíveis problemas com fontes JDBC e soluções conhecidas Com pequenas alterações, esses métodos devem funcionar com outros ...

pandas apache-spark dataframe hadoop

1 a resposta

Requisitos para converter o quadro de dados Spark em quadro de dados Pandas / R

Estou executando o Spark no fio do Hadoop. Como essa conversão funciona? Um collect () ocorre antes da conversão? Também preciso instalar o Python e o R em todos os nós escravos para que a conversão funcione? Estou lutando para encontrar ...

scala rdd dataframe apache-spark

5 a resposta

Igualdade de DataFrame no Apache Spark

Presumirdf1 edf2 são doisDataFrames no Apache Spark, calculado usando dois mecanismos diferentes, por exemplo, Spark SQL versus a API Scala / Java / Python. Existe uma maneira idiomática de determinar se os dois quadros de dados são equivalentes ...

rdd apache-spark

7 a resposta

O Spark especifica várias condições de coluna para ingresso no quadro de dados

Como fornecer mais condições de coluna ao ingressar em dois quadros de dados. Por exemplo, eu quero executar o seguinte: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ...

scala apache-spark

1 a resposta

Como registrar uma função no sqlContext UDF no scala?

Eu tenho um método chamado getAge (timestamp: Long) e quero registrar isso como uma função sql. eu tenho sqlContext.udf.register("getAge",getAge)Mas está me dizendo que eu preciso de argumentos ou uso _ depois, tentei usar _ mas me dá erro. ...

hadoop spark-dataframe hive apache-spark

5 a resposta

Salvar o quadro de dados Spark como tabela particionada dinâmica no Hive

Eu tenho um aplicativo de exemplo trabalhando para ler arquivos csv em um dataframe. O quadro de dados pode ser armazenado em uma tabela do Hive no formato parquet usando o métododf.saveAsTable(tablename,mode). O código acima funciona bem, mas ...

scala apache-spark

1 a resposta

Como filtrar linhas com base no fato de um valor da coluna estar em um Conjunto de seqüências de caracteres em um Spark DataFrame

Existe uma maneira mais elegante de filtrar com base nos valores em um conjunto de cadeias? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...

apache-spark

4 a resposta

Como posso encontrar o tamanho de um RDD

eu tenhoRDD[Row], que precisa ser mantido em um repositório de terceiros. Mas esse repositório de terceiros aceita no máximo 5 MB em uma única chamada. Então, eu quero criar uma partição com base no tamanho dos dados presentes no RDD e não no ...

apache-spark python dataframe export-to-csv

5 a resposta

Como exportar um quadro de dados da tabela no PySpark para csv?

Estou usando o Spark 1.3.1 (PySpark) e gerei uma tabela usando uma consulta SQL. Agora eu tenho um objeto que é umDataFrame. Eu quero exportar issoDataFrame objeto (eu chamei de "tabela") em um arquivo csv para que eu possa manipulá-lo e plotar ...

Página 32 do 52

30 313233 34

Resultados da pesquisa a pedido "apache-spark-sql"

mesclar vários arquivos pequenos em poucos arquivos maiores no Spark

Como usar a fonte JDBC para gravar e ler dados no (Py) Spark?

Requisitos para converter o quadro de dados Spark em quadro de dados Pandas / R

Tags populares

Igualdade de DataFrame no Apache Spark

O Spark especifica várias condições de coluna para ingresso no quadro de dados

Como registrar uma função no sqlContext UDF no scala?

Salvar o quadro de dados Spark como tabela particionada dinâmica no Hive

Como filtrar linhas com base no fato de um valor da coluna estar em um Conjunto de seqüências de caracteres em um Spark DataFrame

Como posso encontrar o tamanho de um RDD

Como exportar um quadro de dados da tabela no PySpark para csv?

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares