Resultados da pesquisa a pedido "apache-spark"
Por que resultados inconsistentes usando subtração em reduzir?
Dado o seguinte: val rdd = List(1,2,3)Eu assumi querdd.reduce((x,y) => (x - y)) retornaria-4 (ou seja,(1-2)-3=-4), mas retornou2. Por quê?
YARN: Qual é a diferença entre número de executores e núcleos de executores no Spark?
Estou aprendendo o Spark no AWS EMR. No processo, estou tentando entender a diferença entre o número de executores (- num-executors) e núcleos de executores (--executor-cores). Alguém pode me dizer aqui? Além disso, quando estou tentando enviar ...
Problema no Guava detectado # 1635, que indica que uma versão do Guava menor que 16.01 está em uso
Estou executando o trabalho spark no emr e usando o conector de dadostax para conectar-se ao cluster cassandra. Estou enfrentando problemas com o pote de goiaba. Encontre os detalhes abaixo. Estou usando abaixo os cassandra deps cqlsh 5.0.1 | ...
PySpark convertendo uma coluna do tipo 'map' em várias colunas em um dataframe
EntradaEu tenho uma colunaParameters do tipomap do formulário: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...
Como substituo um valor de string por um NULL no PySpark?
Eu quero fazer algo assim: df.replace('empty-value', None, 'NAME')Basicamente, quero substituir algum valor por NULL. mas não aceita nenhum nesta função. Como posso fazer isso?
Usar o Spark para escrever um arquivo em parquet para s3 sobre s3a é muito lento
Estou tentando escrever umparquet arquivar paraAmazon S3 usandoSpark 1.6.1. O pequenoparquet que eu estou gerando é~2GB uma vez escrito, portanto, não há muitos dados. Estou tentando provarSpark como uma plataforma que eu possa ...
Por que o Spark SQL considera o suporte de índices sem importância?
Citando os DataFrames Spark,Conjuntos de dados e manual SQL [http://spark.apache.org/docs/latest/sql-programming-guide.html#unsupported-hive-functionality] : Algumas otimizações do Hive ainda não estão incluídas no Spark. Alguns desses (como ...
Como passar várias instruções no Spark SQL HiveContext
Por exemplo, tenho algumas instruções Hive HQL que quero passar para o Spark SQL: set parquet.compression=SNAPPY; create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE; select * from MY_TABLE limit 5;O seguinte ...
Como alterar o tipo de coluna de String para Date em DataFrames?
Eu tenho um quadro de dados que tem duas colunas (C, D) são definidas como tipo de coluna de seqüência de caracteres, mas os dados nas colunas são realmente datas. por exemplo, a coluna C tem a data como "01-APR-2015" e a coluna D ...
Bluemix spark-submit - Como proteger credenciais necessárias ao meu frasco Scala
Eu tenho um aplicativo Spark que estou enviando para o Bluemix Spark Cluster. Ele lê de um banco de dados DASHDB e grava os resultados no Cloudant. O código acessa o DASHDB usando Spark e JDBC. O ID do usuário e a senha do banco de dados DASHDB ...