Resultados da pesquisa a pedido "apache-spark"

2 a resposta

sobrescrevendo uma saída de faísca usando o pyspark

Estou tentando substituir um quadro de dados Spark usando a seguinte opção no PySpark, mas não tenho êxito spark_df.write.format('com.databricks.spark.csv').option("header", "true",mode='overwrite').save(self.output_file_path)o comando mode = ...

1 a resposta

SQLContext implica

Estou aprendendo faísca e scala. Sou bem versado em java, mas não tanto em scala. Estou passando por um tutorial sobre o spark e me deparei com a seguinte linha de código, que não foi explicada: val sqlContext = new ...

4 a resposta

Trabalho do Spark com chamada HTTP assíncrona

Eu construo um RDD a partir de uma lista de URLs e tento buscar dados com alguma chamada http assíncrona. Preciso de todos os resultados antes de fazer outros cálculos. Idealmente, preciso fazer chamadas http em nós diferentes para considerações ...

2 a resposta

Adicionando coluna ao PySpark DataFrame, dependendo se o valor da coluna está em outra coluna

Eu tenho um PySpark DataFrame com estrutura dada por [('u1', 1, [1 ,2, 3]), ('u1', 4, [1, 2, 3])].toDF('user', 'item', 'fav_items')Eu preciso adicionar uma coluna adicional com 1 ou 0, dependendo se 'item' está em 'fav_items' ou não. Então eu ...

1 a resposta

Embrulhando uma função java no pyspark

Eu estou tentando criar uma função agregada definida pelo usuário que eu possa chamar de python. Eu tentei seguir a resposta ...

5 a resposta

Como detecto se um Spark DataFrame tem uma coluna

Quando eu crio umDataFrame de um arquivo JSON no Spark SQL, como posso saber se existe uma determinada coluna antes de chamar.select Exemplo de esquema JSON: { "a": { "b": 1, "c": 2 } }Isto é o que eu quero fazer: potential_columns = Seq("b", ...

4 a resposta

várias condições para filtro em quadros de dados spark

Eu tenho um quadro de dados com quatro campos. um do nome do campo é Status e estou tentando usar uma condição OR no .filter para um dataframe. Eu tentei abaixo consultas, mas sem sorte. df2 = df1.filter(("Status=2") || ("Status =3")) df2 = ...

1 a resposta

Tornando os recursos dos dados de teste iguais aos dados do trem após a seleção dos recursos no spark

Estou trabalhando no Scala. Tenho uma grande pergunta: o ChiSqSelector parece reduzir a dimensão com êxito, mas não consigo identificar quais recursos foram reduzidos e o que permaneceu. Como posso saber quais recursos foram ...

4 a resposta

Filtrando um Pyspark DataFrame com a cláusula IN do tipo SQL

Eu quero filtrar um Pyspark DataFrame com um SQLIN cláusula, como em sc = SparkContext() sqlc = SQLContext(sc) df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')Ondea é a tupla(1, 2, 3). Estou recebendo este ...

1 a resposta

Apache Spark no Mesos: o trabalho inicial não aceitou nenhum recurso

Estou executando o Apache Spark no modo de cluster usando o Apache Mesos. Mas, quando inicio o Spark-Shell para executar um comando de teste simples (sc.parallelize (0 a 10, 8) .count), recebo a seguinte mensagem de aviso: 16/03/10 11:50:55 WARN ...