Результаты поиска по запросу "apache-spark"
Как экспортировать таблицу данных в PySpark в CSV?
Я использую Spark 1.3.1 (PySpark) и сгенерировал таблицу с помощью SQL-запроса. Теперь у меня есть объект, который является
Как я могу эффективно соединить большой rdd с очень большим rdd в искре?
У меня есть два RDD. Одна СДР составляет от 5 до 10 миллионов записей, а другая СДР - от 500 до 750 миллионов записей. В какой-то момент я должен присоединит...
SparkContext не сериализуется внутри объекта-компаньона
В настоящее время я пытаюсь расширить приложение машинного обучения, которое использует Scala и Spark. Я использую структуру предыдущего проекта от Дитериха ...
Что является эффективным, Dataframe или RDD или hiveql?
Я новичок в Apache Spark.Моя задача - прочитать два CSV-файла, выбрать из него несколько определенных столбцов, объединить их, объединить и записать результа...
Spark MLlib: построение классификаторов для каждой группы данных
Я пометил векторы (LabeledPoint-s) с номерами групп. Для каждой группы мне нужно создатьотдельный Классификатор логистической регрессии:
Spark MLLib Kmeans из датафрейма и обратно
Я стремлюсь применить алгоритм кластеризации kmeans к очень большому набору данных, используя Spark (1.3.1) MLLib. Я вызвал данные из HDFS, используя hiveCon...
Как сгруппироватьByKey RDD, с ключом DenseVector, в Spark?
Я создал СДР, в которой каждый элемент является парой ключ-значение, а ключ -
Как преобразовать DataFrame в Json?
У меня есть огромный JSON-файл, небольшая часть которого выглядит следующим образом: