Resultados da pesquisa a pedido "apache-spark"
O KMeans do Spark não consegue lidar com dados grandes?
O KMeans possui vários parâmetros para suaTreinamento [http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html?highlight=kmeans#pyspark.mllib.clustering.KMeans.train] , com o modo de inicialização padronizado para kmeans ||. O problema ...
Runnning Spark no cluster: o trabalho inicial não aceitou nenhum recurso
Eu tenho um servidor Ubuntu remoto emlinode.com [http://linode.com]com 4 núcleos e 8G de RAMEu tenho um cluster Spark-2 composto por 1 mestre e 1 escravo no meu servidor Ubuntu remoto.Iniciei o shell PySpark localmente no meu MacBook, conectado ...
Qual é a diferença entre funções sort e orderBy no Spark
Qual é a diferença entre sort e orderBy spark DataFrame? scala> zips.printSchema root |-- _id: string (nullable = true) |-- city: string (nullable = true) |-- loc: array (nullable = true) | |-- element: double (containsNull = true) |-- pop: long ...
Por que as colunas mudam para nulo no Apache Spark SQL?
Porque énullable = true usado após a execução de algumas funções, mesmo que não haja valores de NaN noDataFrame. val myDf = Seq((2,"A"),(2,"B"),(1,"C")) .toDF("foo","bar") .withColumn("foo", 'foo.cast("Int")) myDf.withColumn("foo_2", when($"foo" ...
Como executar funções jar externas no shell shell
Eu criei um pacote jar a partir de um projeto desta árvore de arquivos: build.sbt src/main src/main/scala src/main/scala/Tester.scala src/main/scala/main.scalaonde Tester é uma classe por uma função (nome é print ()) e main possui um objeto para ...
Executar uma junção digitada no Scala com conjuntos de dados Spark
Gosto de conjuntos de dados Spark, pois eles me fornecem erros de análise e sintaxe em tempo de compilação e também me permitem trabalhar com getters em vez de nomes / números codificados. A maioria dos cálculos pode ser realizada com as APIs de ...
Como executar operações matemáticas com duas colunas no dataframe usando o pyspark
Eu tenho dataframe com três colunas "x", "y" e "z" x y z bn 12452 221 mb 14521 330 pl 12563 160 lo 22516 142Eu preciso criar uma outra coluna que é derivada por esta fórmula (m = z / y+z)Portanto, os novos quadros de dados devem ter a seguinte ...
Como adicionar uma coluna ao conjunto de dados sem converter de um DataFrame e acessá-lo?
Estou ciente do método para adicionar uma nova coluna a um Spark DataSet usando.withColumn() e umUDF, que retorna um DataFrame. Também sei que podemos converter o DataFrame resultante em um DataSet. Minhas perguntas são: Como a segurança de ...
PCA no Spark MLlib e Spark ML
O Spark agora tem duas bibliotecas de aprendizado de máquina - Spark MLlib e Spark ML. Eles se sobrepõem um pouco ao implementado, mas, pelo que entendi (como uma pessoa nova em todo o ecossistema Spark), o Spark ML é o caminho a percorrer e o ...
Spark: saveAsTextFile sem compactação
Por padrão, as versões mais recentes do Spark usam compactação ao salvar arquivos de texto. Por exemplo: val txt = sc.parallelize(List("Hello", "world", "!")) txt.saveAsTextFile("/path/to/output")criará arquivos em.deflate formato. É muito fácil ...