Resultados da pesquisa a pedido "apache-spark"
Renomear coluna dinâmica e agregada no PySpark Dataframe
Com um quadro de dados da seguinte maneira: from pyspark.sql.functions import avg, first rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), ...
Spark :: o KMeans chama takeSample () duas vezes?
Eu tenho muitos dados e experimentei partições de cardinalidade [20k, 200k +]. Eu chamo assim: from pyspark.mllib.clustering import KMeans, KMeansModel C0 = KMeans.train(first, 8192, initializationMode='random', maxIterations=10, seed=None) C0 ...
O que acontece - NoSuchMethodError: com.datastax.driver.core.ResultSet.fetchMoreResults
cassandra-connector-assembly-2.0.0 construído a partir degithub projeto. comScala 2.11.8, cassandra-driver-core-3.1.0 sc.cassandraTable("mykeyspace", "mytable").select("something").where("key=?", key).mapPartitions(par => { par.map({ row => ...
Classe de caso Scala que ignora a importação no shell Spark
Espero que haja uma resposta óbvia para esta pergunta! Acabei de atualizar para o Spark v2.0 e tenho um problema estranho com ofaísca (Versão Scala 2.11). Se eu inserir o seguinte Scala mínimo, import java.sql.Timestamp case class ...
A execução de fios com faísca não funciona com Java 8
Eu tenho cluster com 1 mestre e 6 escravos que usa a versão pré-criada do hadoop 2.6.0 e spark 1.6.2. Eu estava executando os trabalhos hadoop MR e spark sem nenhum problema com o openjdk 7 instalado em todos os nós. No entanto, quando ...
No Apache Spark 2.0.0, é possível buscar uma consulta de um banco de dados externo (em vez de pegar a tabela inteira)?
Usando o pyspark: from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .appName("spark play")\ .getOrCreate() df = spark.read\ .format("jdbc")\ .option("url", "jdbc:mysql://localhost:port")\ ...
Integre o PySpark ao Jupyter Notebook
Eu estou seguindo issolocal [https://www.dataquest.io/blog/pyspark-installation-guide/]instalar o Jupyter Notebook, PySpark e integrar os dois. Quando precisei criar o "perfil Jupyter", li que "os perfis Jupyter" não existem mais. Então, ...
Qual é a diferença entre os pacotes Spark ML e MLLIB
Notei que existem doisLinearRegressionModel classes no SparkML, uma na ML e outra naMLLib pacote. Esses dois são implementados de maneira bastante diferente - por exemplo, o deMLLib implementaSerializable, enquanto o outro não. By the way ame é ...
Acessar arquivos que começam com sublinhado no apache spark
Estou tentando acessar arquivos gz no s3 que começam com_ no Apache Spark. Infelizmente o spark considera esses arquivos invisíveis e retornaInput path does not exist: s3n:.../_1013.gz. Se eu remover o sublinhado, ele encontrará o arquivo muito ...
Como converter coluna de matrizes de strings em strings?
Eu tenho uma coluna, que é do tipoarray < string > em mesas de faísca. Estou usando o SQL para consultar essas tabelas spark. Eu queria converter oarray < string > para dentrostring. Quando usada a sintaxe abaixo: select cast(rate_plan_code as ...