Resultados da pesquisa a pedido "apache-spark"

eu tenhoRDD[Row], que precisa ser mantido em um repositório de terceiros. Mas esse repositório de terceiros aceita no máximo 5 MB em uma única chamada. Então, eu quero criar uma partição com base no tamanho dos dados presentes no RDD e não no ...

python dataframe apache-spark-sql export-to-csv

5 a resposta

Como exportar um quadro de dados da tabela no PySpark para csv?

Estou usando o Spark 1.3.1 (PySpark) e gerei uma tabela usando uma consulta SQL. Agora eu tenho um objeto que é umDataFrame. Eu quero exportar issoDataFrame objeto (eu chamei de "tabela") em um arquivo csv para que eu possa manipulá-lo e plotar ...

rdd join

1 a resposta

Como posso associar com eficiência um grande número a um muito grande no spark?

Eu tenho dois RDDs. Um RDD tem entre 5 a 10 milhões de entradas e o outro RDD entre 500 a 750 milhões de entradas. Em algum momento, eu tenho que unir esses dois rdds usando uma chave comum. val rddA = someData.rdd.map { x => (x.key, x); } // ...

jtds

1 a resposta

driver faísca não encontrado

Estou tentando gravar o dataframe no sqlserver usando o spark. Estou usando o método write para dataframewriter para gravar no sql server. Usando DriverManager.getConnection eu sou capaz de obter conexão do sqlserver e capaz de escrever, mas ao ...

scala apache-spark-sql

1 a resposta

Como filtrar linhas com base no fato de um valor da coluna estar em um Conjunto de seqüências de caracteres em um Spark DataFrame

Existe uma maneira mais elegante de filtrar com base nos valores em um conjunto de cadeias? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...

python rdd pyspark

1 a resposta

Uma lista como chave para o reduzaByKey do PySpark

Eu estou tentando chamar a função reduzirByKey do pyspark nos dados do formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que o pyspark não aceitará uma matriz como a chave na chave normal, redução de valor simplesmente aplicando ...

apache-spark-mllib

1 a resposta

Spark MLlib: construindo classificadores para cada grupo de dados

Eu rotulei vetores (LabeledPoint-s) com o número de um grupo. Para cada grupo que preciso criaruma separação Classificador de regressão logística: import org.apache.log4j.{Level, Logger} ...

apache-spark-mllib

2 a resposta

Vetor esparso vs vetor denso

Como criarSparseVector e representações vetoriais densas se oDenseVector é: denseV = np.array([0., 3., 0., 4.])Qual será a representação do vetor esparso?

2 a resposta

Exemplo do Spark Word2Vec usando o arquivo text8

Estou tentando executar este exemplo em apache.spark.org (o código está abaixo e todo o tutorial está aqui: https://spark.apache.org/docs/latest/mllib-feature-extraction.html [https://spark.apache.org/docs/latest/mllib-feature-extraction.html]) ...

scala apache-spark-sql json

4 a resposta

Como converter DataFrame para Json?

Eu tenho um arquivo Json enorme, uma pequena parte dele da seguinte maneira: { "socialNews": [{ "adminTagIds": "", "fileIds": "", "departmentTagIds": "", ........ ........ "comments": [{ "commentId": "", "newsId": "", "entityId": "", .... .... ...

Página 112 do 167

110 111112113 114

Resultados da pesquisa a pedido "apache-spark"

Como posso encontrar o tamanho de um RDD

Como exportar um quadro de dados da tabela no PySpark para csv?

Como posso associar com eficiência um grande número a um muito grande no spark?

Tags populares

driver faísca não encontrado

Como filtrar linhas com base no fato de um valor da coluna estar em um Conjunto de seqüências de caracteres em um Spark DataFrame

Uma lista como chave para o reduzaByKey do PySpark

Spark MLlib: construindo classificadores para cada grupo de dados

Vetor esparso vs vetor denso

Exemplo do Spark Word2Vec usando o arquivo text8

Como converter DataFrame para Json?

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares