Результаты поиска по запросу "apache-spark"

1 ответ

Режим клиента может быть установлен в среде, как показано ниже

запускаемые мной искры не будут выполнены со следующим сообщением об ошибке17.06.16 11:10:43 WARN cluster.YarnScheduler: Начальное задание не приняло никаких...

1 ответ

пожалуйста, не могли бы вы уточнить процитированный параграф @viirya?

а Spark «оптимизирует» фрейм данных неэффективным способом. Рассмотрим следующий пример в Spark 2.1 (также может быть воспроизведен в Spark 1.6):

4 ответа

Я использую API данных, чтобы сохранить вывод DF в текстовый файл.

аюсь написать

ТОП публикаций

0 ответов

Извините, я не компетентен отвечать на эти вопросы.

я есть 4 приложения для поиска (чтобы найти WordCount из текстового файла), которые написаны на 4 разных языках (R, Python, Java, Scala)

0 ответов

@Angelito Основная сериализация данных с паркетом уменьшит время перемешивания для разделов, потому что «сокращает» структуру данных

ользую Spark ML для запуска некоторых экспериментов ML и на небольшом наборе данных размером 20 МБ (Набор данных покера [http://archive.ics.uci.edu/ml/machine-learning-databases/poker/poker-hand-testing.data] ) и Случайный лес с сеткой ...

2 ответа

https://github.com/ZuInnoTe/spark-hadoopoffice-ds

аю файл Excel, используяcom.crealytics.spark.excel пакет. Ниже приведен код для чтения файла Excel в спарк Java.

4 ответа

 функция присутствует в Spark для Java. Он принимает слово для замены и последовательность имен столбцов. Вот как я это реализовал:

аюсь улучшить точность алгоритма логистической регрессии, реализованного в Spark с использованием Java. Для этого я пытаюсь заменить недействительные или нед...

0 ответов

Собственный накопитель строк был очень полезен для выявления поврежденных входных файлов.

ли читать pdf / аудио / видео файлы (неструктурированные данные) с помощью Apache Spark? Например, у меня есть тысячи счетов в формате PDF, и я хочу прочитать данные из них и провести некоторую аналитику по этому вопросу. Какие шаги я должен ...

1 ответ

как вышеупомянутая логика будет работать в спарк 1.6.0, то же самое работает на hiveContext

я есть сценарий для сравнения двух разных таблиц источника и назначения с двух отдельных серверов Hive, можем ли мы использовать дваSparkSessions что-то подобное я попробовал ниже: val spark = SparkSession.builder().master("local") ...

1 ответ

, Мне даже удалось отфильтровать RDD, присвоить их набору Status и затем выполнить итерацию по этому набору для окончательной обработки.

аюсь получить доступ к коллекции отфильтрованных DStreams, полученных как в решении этого вопроса:Spark Streaming - лучший способ разделения входного потока на основе фильтра ...