Resultados da pesquisa a pedido "apache-spark"
sobrescrevendo uma saída de faísca usando o pyspark
Estou tentando substituir um quadro de dados Spark usando a seguinte opção no PySpark, mas não tenho êxito spark_df.write.format('com.databricks.spark.csv').option("header", "true",mode='overwrite').save(self.output_file_path)o comando mode = ...
SQLContext implica
Estou aprendendo faísca e scala. Sou bem versado em java, mas não tanto em scala. Estou passando por um tutorial sobre o spark e me deparei com a seguinte linha de código, que não foi explicada: val sqlContext = new ...
Trabalho do Spark com chamada HTTP assíncrona
Eu construo um RDD a partir de uma lista de URLs e tento buscar dados com alguma chamada http assíncrona. Preciso de todos os resultados antes de fazer outros cálculos. Idealmente, preciso fazer chamadas http em nós diferentes para considerações ...
Adicionando coluna ao PySpark DataFrame, dependendo se o valor da coluna está em outra coluna
Eu tenho um PySpark DataFrame com estrutura dada por [('u1', 1, [1 ,2, 3]), ('u1', 4, [1, 2, 3])].toDF('user', 'item', 'fav_items')Eu preciso adicionar uma coluna adicional com 1 ou 0, dependendo se 'item' está em 'fav_items' ou não. Então eu ...
Embrulhando uma função java no pyspark
Eu estou tentando criar uma função agregada definida pelo usuário que eu possa chamar de python. Eu tentei seguir a resposta ...
Como detecto se um Spark DataFrame tem uma coluna
Quando eu crio umDataFrame de um arquivo JSON no Spark SQL, como posso saber se existe uma determinada coluna antes de chamar.select Exemplo de esquema JSON: { "a": { "b": 1, "c": 2 } }Isto é o que eu quero fazer: potential_columns = Seq("b", ...
várias condições para filtro em quadros de dados spark
Eu tenho um quadro de dados com quatro campos. um do nome do campo é Status e estou tentando usar uma condição OR no .filter para um dataframe. Eu tentei abaixo consultas, mas sem sorte. df2 = df1.filter(("Status=2") || ("Status =3")) df2 = ...
Tornando os recursos dos dados de teste iguais aos dados do trem após a seleção dos recursos no spark
Estou trabalhando no Scala. Tenho uma grande pergunta: o ChiSqSelector parece reduzir a dimensão com êxito, mas não consigo identificar quais recursos foram reduzidos e o que permaneceu. Como posso saber quais recursos foram ...
Filtrando um Pyspark DataFrame com a cláusula IN do tipo SQL
Eu quero filtrar um Pyspark DataFrame com um SQLIN cláusula, como em sc = SparkContext() sqlc = SQLContext(sc) df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')Ondea é a tupla(1, 2, 3). Estou recebendo este ...
Apache Spark no Mesos: o trabalho inicial não aceitou nenhum recurso
Estou executando o Apache Spark no modo de cluster usando o Apache Mesos. Mas, quando inicio o Spark-Shell para executar um comando de teste simples (sc.parallelize (0 a 10, 8) .count), recebo a seguinte mensagem de aviso: 16/03/10 11:50:55 WARN ...