Resultados da pesquisa a pedido "apache-spark-sql"

3 a resposta

mesclar vários arquivos pequenos em poucos arquivos maiores no Spark

Eu estou usando a colméia através do Spark. Eu tenho uma inserção na consulta de tabela particionada no meu código spark. Os dados de entrada estão em 200 + gb. Quando o Spark está gravando em uma tabela particionada, está cuspindo arquivos muito ...

3 a resposta

Como usar a fonte JDBC para gravar e ler dados no (Py) Spark?

O objetivo desta pergunta é documentar: etapas necessárias para ler e gravar dados usando conexões JDBC no PySpark possíveis problemas com fontes JDBC e soluções conhecidas Com pequenas alterações, esses métodos devem funcionar com outros ...

1 a resposta

Requisitos para converter o quadro de dados Spark em quadro de dados Pandas / R

Estou executando o Spark no fio do Hadoop. Como essa conversão funciona? Um collect () ocorre antes da conversão? Também preciso instalar o Python e o R em todos os nós escravos para que a conversão funcione? Estou lutando para encontrar ...

5 a resposta

Igualdade de DataFrame no Apache Spark

Presumirdf1 edf2 são doisDataFrames no Apache Spark, calculado usando dois mecanismos diferentes, por exemplo, Spark SQL versus a API Scala / Java / Python. Existe uma maneira idiomática de determinar se os dois quadros de dados são equivalentes ...

7 a resposta

O Spark especifica várias condições de coluna para ingresso no quadro de dados

Como fornecer mais condições de coluna ao ingressar em dois quadros de dados. Por exemplo, eu quero executar o seguinte: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ...

1 a resposta

Como registrar uma função no sqlContext UDF no scala?

Eu tenho um método chamado getAge (timestamp: Long) e quero registrar isso como uma função sql. eu tenho sqlContext.udf.register("getAge",getAge)Mas está me dizendo que eu preciso de argumentos ou uso _ depois, tentei usar _ mas me dá erro. ...

5 a resposta

Salvar o quadro de dados Spark como tabela particionada dinâmica no Hive

Eu tenho um aplicativo de exemplo trabalhando para ler arquivos csv em um dataframe. O quadro de dados pode ser armazenado em uma tabela do Hive no formato parquet usando o métododf.saveAsTable(tablename,mode). O código acima funciona bem, mas ...

1 a resposta

Como filtrar linhas com base no fato de um valor da coluna estar em um Conjunto de seqüências de caracteres em um Spark DataFrame

Existe uma maneira mais elegante de filtrar com base nos valores em um conjunto de cadeias? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...

4 a resposta

Como posso encontrar o tamanho de um RDD

eu tenhoRDD[Row], que precisa ser mantido em um repositório de terceiros. Mas esse repositório de terceiros aceita no máximo 5 MB em uma única chamada. Então, eu quero criar uma partição com base no tamanho dos dados presentes no RDD e não no ...

5 a resposta

Como exportar um quadro de dados da tabela no PySpark para csv?

Estou usando o Spark 1.3.1 (PySpark) e gerei uma tabela usando uma consulta SQL. Agora eu tenho um objeto que é umDataFrame. Eu quero exportar issoDataFrame objeto (eu chamei de "tabela") em um arquivo csv para que eu possa manipulá-lo e plotar ...