Resultados da pesquisa a pedido "apache-spark"
Como posso encontrar o tamanho de um RDD
eu tenhoRDD[Row], que precisa ser mantido em um repositório de terceiros. Mas esse repositório de terceiros aceita no máximo 5 MB em uma única chamada. Então, eu quero criar uma partição com base no tamanho dos dados presentes no RDD e não no ...
Como exportar um quadro de dados da tabela no PySpark para csv?
Estou usando o Spark 1.3.1 (PySpark) e gerei uma tabela usando uma consulta SQL. Agora eu tenho um objeto que é umDataFrame. Eu quero exportar issoDataFrame objeto (eu chamei de "tabela") em um arquivo csv para que eu possa manipulá-lo e plotar ...
Como posso associar com eficiência um grande número a um muito grande no spark?
Eu tenho dois RDDs. Um RDD tem entre 5 a 10 milhões de entradas e o outro RDD entre 500 a 750 milhões de entradas. Em algum momento, eu tenho que unir esses dois rdds usando uma chave comum. val rddA = someData.rdd.map { x => (x.key, x); } // ...
driver faísca não encontrado
Estou tentando gravar o dataframe no sqlserver usando o spark. Estou usando o método write para dataframewriter para gravar no sql server. Usando DriverManager.getConnection eu sou capaz de obter conexão do sqlserver e capaz de escrever, mas ao ...
Como filtrar linhas com base no fato de um valor da coluna estar em um Conjunto de seqüências de caracteres em um Spark DataFrame
Existe uma maneira mais elegante de filtrar com base nos valores em um conjunto de cadeias? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...
Uma lista como chave para o reduzaByKey do PySpark
Eu estou tentando chamar a função reduzirByKey do pyspark nos dados do formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que o pyspark não aceitará uma matriz como a chave na chave normal, redução de valor simplesmente aplicando ...
Spark MLlib: construindo classificadores para cada grupo de dados
Eu rotulei vetores (LabeledPoint-s) com o número de um grupo. Para cada grupo que preciso criaruma separação Classificador de regressão logística: import org.apache.log4j.{Level, Logger} ...
Vetor esparso vs vetor denso
Como criarSparseVector e representações vetoriais densas se oDenseVector é: denseV = np.array([0., 3., 0., 4.])Qual será a representação do vetor esparso?
Exemplo do Spark Word2Vec usando o arquivo text8
Estou tentando executar este exemplo em apache.spark.org (o código está abaixo e todo o tutorial está aqui: https://spark.apache.org/docs/latest/mllib-feature-extraction.html [https://spark.apache.org/docs/latest/mllib-feature-extraction.html]) ...
Como converter DataFrame para Json?
Eu tenho um arquivo Json enorme, uma pequena parte dele da seguinte maneira: { "socialNews": [{ "adminTagIds": "", "fileIds": "", "departmentTagIds": "", ........ ........ "comments": [{ "commentId": "", "newsId": "", "entityId": "", .... .... ...