Результаты поиска по запросу "apache-spark"
Как измерить время выполнения запроса на Spark
Мне нужно измерить время выполнения запроса на Apache Spark (Bluemix). Что я пробовал:
Суммарные значения PairRDD
У меня есть RDD типа:
Что такое рабочие, исполнители, ядра в кластере Spark Standalone?
Я читаюОбзор режима кластера и я до сих пор не могу понять различные процессы вИскра Автономный кластер и параллелизм.Является ли рабочий процесс JVM или нет...
спасибо, это сработало.
ичок на спарк, у меня есть датафрейм df: +----------+------------+-----------+ | Column1 | Column2 | Sub | +----------+------------+-----------+ | 1 | 2 | 1 | +----------+------------+-----------+ | 4 | null | null ...
Спасибо за такой подробный ответ для меня!
имах кластера, как написать функцию закрытияf дать каждому работнику доступ к копии переменнойN. N=5 lines=sc.parallelize(['early radical', 'french revolution','pejorative way', 'violent means']) def f1(line): return line[:N] l=lines.map(f1) ...
Искра: Разница между произвольной записью, случайным разливом (памятью), случайным разливом (диском)?
У меня следующая искровая работа, пытаюсь сохранить все в памяти:
Я напишу образец и скоро поделюсь.
троил модель H2O в R и сохранил код POJO. Я хочу записывать файлы паркета в формате hdf, используя POJO, но я не уверен, как это сделать. Я планирую читать файлы паркета в spark (scala / SparkR / PySpark) и оценивать их там. Ниже приведена ...