Resultados da pesquisa a pedido "apache-spark-sql"
mesclar vários arquivos pequenos em poucos arquivos maiores no Spark
Eu estou usando a colméia através do Spark. Eu tenho uma inserção na consulta de tabela particionada no meu código spark. Os dados de entrada estão em 200 + gb. Quando o Spark está gravando em uma tabela particionada, está cuspindo arquivos muito ...
Como usar a fonte JDBC para gravar e ler dados no (Py) Spark?
O objetivo desta pergunta é documentar: etapas necessárias para ler e gravar dados usando conexões JDBC no PySpark possíveis problemas com fontes JDBC e soluções conhecidas Com pequenas alterações, esses métodos devem funcionar com outros ...
Requisitos para converter o quadro de dados Spark em quadro de dados Pandas / R
Estou executando o Spark no fio do Hadoop. Como essa conversão funciona? Um collect () ocorre antes da conversão? Também preciso instalar o Python e o R em todos os nós escravos para que a conversão funcione? Estou lutando para encontrar ...
Igualdade de DataFrame no Apache Spark
Presumirdf1 edf2 são doisDataFrames no Apache Spark, calculado usando dois mecanismos diferentes, por exemplo, Spark SQL versus a API Scala / Java / Python. Existe uma maneira idiomática de determinar se os dois quadros de dados são equivalentes ...
O Spark especifica várias condições de coluna para ingresso no quadro de dados
Como fornecer mais condições de coluna ao ingressar em dois quadros de dados. Por exemplo, eu quero executar o seguinte: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ...
Como registrar uma função no sqlContext UDF no scala?
Eu tenho um método chamado getAge (timestamp: Long) e quero registrar isso como uma função sql. eu tenho sqlContext.udf.register("getAge",getAge)Mas está me dizendo que eu preciso de argumentos ou uso _ depois, tentei usar _ mas me dá erro. ...
Salvar o quadro de dados Spark como tabela particionada dinâmica no Hive
Eu tenho um aplicativo de exemplo trabalhando para ler arquivos csv em um dataframe. O quadro de dados pode ser armazenado em uma tabela do Hive no formato parquet usando o métododf.saveAsTable(tablename,mode). O código acima funciona bem, mas ...
Como filtrar linhas com base no fato de um valor da coluna estar em um Conjunto de seqüências de caracteres em um Spark DataFrame
Existe uma maneira mais elegante de filtrar com base nos valores em um conjunto de cadeias? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...
Como posso encontrar o tamanho de um RDD
eu tenhoRDD[Row], que precisa ser mantido em um repositório de terceiros. Mas esse repositório de terceiros aceita no máximo 5 MB em uma única chamada. Então, eu quero criar uma partição com base no tamanho dos dados presentes no RDD e não no ...
Como exportar um quadro de dados da tabela no PySpark para csv?
Estou usando o Spark 1.3.1 (PySpark) e gerei uma tabela usando uma consulta SQL. Agora eu tenho um objeto que é umDataFrame. Eu quero exportar issoDataFrame objeto (eu chamei de "tabela") em um arquivo csv para que eu possa manipulá-lo e plotar ...