Resultados da pesquisa a pedido "apache-spark"

4 a resposta

Como posso encontrar o tamanho de um RDD

eu tenhoRDD[Row], que precisa ser mantido em um repositório de terceiros. Mas esse repositório de terceiros aceita no máximo 5 MB em uma única chamada. Então, eu quero criar uma partição com base no tamanho dos dados presentes no RDD e não no ...

5 a resposta

Como exportar um quadro de dados da tabela no PySpark para csv?

Estou usando o Spark 1.3.1 (PySpark) e gerei uma tabela usando uma consulta SQL. Agora eu tenho um objeto que é umDataFrame. Eu quero exportar issoDataFrame objeto (eu chamei de "tabela") em um arquivo csv para que eu possa manipulá-lo e plotar ...

1 a resposta

Como posso associar com eficiência um grande número a um muito grande no spark?

Eu tenho dois RDDs. Um RDD tem entre 5 a 10 milhões de entradas e o outro RDD entre 500 a 750 milhões de entradas. Em algum momento, eu tenho que unir esses dois rdds usando uma chave comum. val rddA = someData.rdd.map { x => (x.key, x); } // ...

1 a resposta

driver faísca não encontrado

Estou tentando gravar o dataframe no sqlserver usando o spark. Estou usando o método write para dataframewriter para gravar no sql server. Usando DriverManager.getConnection eu sou capaz de obter conexão do sqlserver e capaz de escrever, mas ao ...

1 a resposta

Como filtrar linhas com base no fato de um valor da coluna estar em um Conjunto de seqüências de caracteres em um Spark DataFrame

Existe uma maneira mais elegante de filtrar com base nos valores em um conjunto de cadeias? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...

1 a resposta

Uma lista como chave para o reduzaByKey do PySpark

Eu estou tentando chamar a função reduzirByKey do pyspark nos dados do formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que o pyspark não aceitará uma matriz como a chave na chave normal, redução de valor simplesmente aplicando ...

1 a resposta

Spark MLlib: construindo classificadores para cada grupo de dados

Eu rotulei vetores (LabeledPoint-s) com o número de um grupo. Para cada grupo que preciso criaruma separação Classificador de regressão logística: import org.apache.log4j.{Level, Logger} ...

2 a resposta

Vetor esparso vs vetor denso

Como criarSparseVector e representações vetoriais densas se oDenseVector é: denseV = np.array([0., 3., 0., 4.])Qual será a representação do vetor esparso?

2 a resposta

Exemplo do Spark Word2Vec usando o arquivo text8

Estou tentando executar este exemplo em apache.spark.org (o código está abaixo e todo o tutorial está aqui: https://spark.apache.org/docs/latest/mllib-feature-extraction.html [https://spark.apache.org/docs/latest/mllib-feature-extraction.html]) ...

4 a resposta

Como converter DataFrame para Json?

Eu tenho um arquivo Json enorme, uma pequena parte dele da seguinte maneira: { "socialNews": [{ "adminTagIds": "", "fileIds": "", "departmentTagIds": "", ........ ........ "comments": [{ "commentId": "", "newsId": "", "entityId": "", .... .... ...