Resultados da pesquisa a pedido "bigdata"
jq --streamstream filter em vários valores da mesma chave
Estou processando um JSON muito grande em que preciso filtrar os objetos JSON internos usando o valor de uma chave. Meu JSON tem a seguinte ...
Por que o OneHotEncoder do Spark descarta a última categoria por padrão?
Gostaria de entender o racional por trás do OneHotEncoder do Spark descartando a última categoria por padrão. Por exemplo: >>> fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0, "b"), (3.2, "c")], ["x","c"]) >>> ss = ...
Como transformar uma variável categórica no Spark em um conjunto de colunas codificadas como {0,1}?
Estou tentando executar uma regressão logística (LogisticRegressionWithLBFGS) com Spark MLlib (com Scala) em um conjunto de dados que contém variáveis categóricas. Descobri que o Spark não foi capaz de trabalhar com esse tipo de variável. Em R, ...
por que dois vetores não é similaridade, mas o resultado é 1?
Estou usando a fórmula Cosine Similarity para calcular a similaridade entre dois vetores. Eu tentei dois vetores diferentes como este: Vector1 (-1237373741, 27, 1, 1, 331289590, 1818540802) Vector2 (-1237373741, 49, 1, 1, 331289590, ...
Como posso salvar um RDD no HDFS e depois lê-lo novamente?
Eu tenho um RDD cujos elementos são do tipo (Long, String). Por alguma razão, quero salvar o RDD inteiro no HDFS e, posteriormente, também ler esse RDD novamente em um programa Spark. É possível fazer isso? E se sim, como?
Como criar um grande dataframe de pandas a partir de uma consulta sql sem ficar sem memória?
Estou tendo problemas para consultar uma tabela de> 5 milhões de registros do meu banco de dados do MS SQL Server. Eu quero ser capaz de selecionar todos ...
Adivinhador de tipo de dados Spark UDAF
Queria levar algo assim https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java]e crie um Hive UDAF para criar uma função agregada que retorna uma ...
Subtrair todos os pares de valores de duas matrizes
Eu tenho dois vetoresv1 ev2. Eu gostaria de subtrair cada valor dev2 de cada valor dev1 e armazene os resultados em outro vetor. Também gostaria de trabalhar com vetores muito grandes (por exemplo, tamanho 1e6), então acho que devo usar numpy ...