Resultados da pesquisa a pedido "apache-spark-sql"
Use collect_list e collect_set no Spark SQL
De acordo comdocs [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$] , acollect_set ecollect_list funções devem estar disponíveis no Spark SQL. No entanto, não consigo fazê-lo funcionar. Estou executando o ...
Como armazenar em cache um quadro de dados Spark e referenciá-lo em outro script
É possível armazenar em cache um quadro de dados e referenciá-lo (consulta) em outro script? ... Meu objetivo é o seguinte: No script 1, crie um quadro de dados (df)Execute o script 1 e o cache dfNo script 2, consultar dados em df
SPARK SQL - atualize a tabela MySql usando DataFrames e JDBC
Estou tentando inserir e atualizar alguns dados no MySql usando o Spark SQL DataFrames e a conexão JDBC. Consegui inserir novos dados usando o SaveMode.Append. Existe uma maneira de atualizar os dados já existentes na tabela MySql do Spark ...
Como excluir várias colunas no Spark dataframe em Python
Eu descobri que o PySpark tem um método chamadodrop mas parece que só pode eliminar uma coluna de cada vez. Alguma idéia de como soltar várias colunas ao mesmo tempo? df.drop(['col1','col2']) TypeError Traceback (most recent call ...
Como adiciono uma coluna persistente de IDs de linha ao Spark DataFrame?
Essa pergunta não é nova, mas estou encontrando um comportamento surpreendente no Spark. Eu preciso adicionar uma coluna de IDs de linha a um DataFrame. Eu usei o método DataFrame monotonically_increasing_id () e ele me fornece uma coluna ...
O Spark do filtro DataFrame na string contém
estou usandoSpark 1.3.0 [http://spark.apache.org/releases/spark-release-1-3-0.html]eSpark Avro 1.0.0 [https://github.com/databricks/spark-avro/tree/c5612df9b1a9768689fec91655faa2a7073fd9fc#spark-sql-avro-library] . Estou trabalhando deo exemplo ...
Adicionando coluna ao PySpark DataFrame, dependendo se o valor da coluna está em outra coluna
Eu tenho um PySpark DataFrame com estrutura dada por [('u1', 1, [1 ,2, 3]), ('u1', 4, [1, 2, 3])].toDF('user', 'item', 'fav_items')Eu preciso adicionar uma coluna adicional com 1 ou 0, dependendo se 'item' está em 'fav_items' ou não. Então eu ...
Como detecto se um Spark DataFrame tem uma coluna
Quando eu crio umDataFrame de um arquivo JSON no Spark SQL, como posso saber se existe uma determinada coluna antes de chamar.select Exemplo de esquema JSON: { "a": { "b": 1, "c": 2 } }Isto é o que eu quero fazer: potential_columns = Seq("b", ...
várias condições para filtro em quadros de dados spark
Eu tenho um quadro de dados com quatro campos. um do nome do campo é Status e estou tentando usar uma condição OR no .filter para um dataframe. Eu tentei abaixo consultas, mas sem sorte. df2 = df1.filter(("Status=2") || ("Status =3")) df2 = ...
Apache Spark no Mesos: o trabalho inicial não aceitou nenhum recurso
Estou executando o Apache Spark no modo de cluster usando o Apache Mesos. Mas, quando inicio o Spark-Shell para executar um comando de teste simples (sc.parallelize (0 a 10, 8) .count), recebo a seguinte mensagem de aviso: 16/03/10 11:50:55 WARN ...