Результаты поиска по запросу "hadoop"
и фильтровать аэропорт по
исал запрос, чтобы найти 10 самых загруженных аэропортов в США с марта по апрель. Это дает желаемый результат, однако я хочу попытаться оптимизировать его. Есть ли какие-либо специфичные для HiveQL оптимизации, которые можно применить ...
-files Аргумент files используется для распространения файлов через Hadoop Distributed Cache. В приведенном выше примере мы распространяем файл данных Max Mind Geo-IP через распределенный кэш Hadoop. Нам необходим доступ к файлу гео-IP-адресов Max Mind, чтобы сопоставить IP-адрес пользователя с соответствующей страной, регионом, городом и часовым поясом. API требует, чтобы файл данных присутствовал локально, что невозможно в распределенной среде обработки (нам не будет гарантировано, какие узлы в кластере будут обрабатывать данные). Для распространения соответствующих данных на узел обработки мы используем инфраструктуру распределенного кэша Hadoop. GenericOptionsParser и ToolRunner автоматически облегчают это, используя аргумент –file. Обратите внимание, что файл, который мы распространяем, должен быть доступен в облаке (HDFS). -libjars –libjars используется для распространения любых дополнительных зависимостей, необходимых для заданий map-Reduce. Как и файл данных, нам также необходимо скопировать зависимые библиотеки в узлы кластера, где будет выполняться задание. GenericOptionsParser и ToolRunner автоматически облегчают это, используя аргумент –libjars.
кст этого вопроса заключается в том, что я пытаюсь использовать Java Java API maxmind в сценарии свиньи, который я написал ... Однако я не думаю, что знание того или другого необходимо для ответа на вопрос. API maxmind имеет конструктор, который ...
Установка fs.default.name в core-site.xml Устанавливает HDFS в безопасный режим
Я установил дистрибутив Cloudera CDH4 на одной машине в псевдораспределенном режиме и успешно проверил, что он работает правильно (например, может запускать программы MapReduce, вставлять данные на сервер Hive и т. Д.). Однако, если ...
перешел в чат
чение улья [https://i.stack.imgur.com/wfhIV.png] Я установил Hadoop 3.0.0 и Hive 2.3.1 на свой компьютер. Параллельно я установил MySQL и работал с командами SQL в режиме оболочки SQL и работает нормально. Но при выполнении запросов в режиме ...
Тогда все просто работает. Вам не нужно (а может и не нужно) менять
аюсь поиграть с набором данных Google Ngrams, используя Amazon Elastic Map Reduce. Есть публичный набор данных на http://aws.amazon.com/datasets/8172056142375670 [http://aws.amazon.com/datasets/8172056142375670]и я хочу использовать ...
Как преобразовать объект String в объект IntWritable в Hadoop
Я хочу конвертироватьString ВозражатьIntWritable Объект в Hadoop. любой процесс доступен для преобразования. Спасибо
Документация по установке и запуску hadoop 2.2 в Windows
В последней версии Hadoop 2.2 я вижу, что в примечаниях к выпуску упоминается, что эта версия имеет значительные улучшения для запуска Hadoop в Windows. Вчера я скачал Hadoop 2.2 и увидел множество файлов .cmd с файлами .sh, что гарантирует ...
Hive не полностью соблюдает значение fs.default.name/fs.defaultFS в core-site.xml
У меня установлена служба NameNode на компьютере с именемhadoop. core-site.xml файл имеетfs.defaultFS (эквивалентноfs.default.name) установите следующее: <property> <name>fs.defaultFS</name> <value>hdfs://hadoop:8020</value> </property>У меня ...
Опять же, есть ли отдельные исполнители, выполняющие больше работы, чем другие?
аю строку длиной более 100 Кбайт и разделяю столбцы по ширине. У меня есть около 16K столбцов, которые я разделил сверху строки на основе ширины. но при записи в паркет я использую код ниже rdd1=spark.sparkContext.textfile("file1") { var now=0 ...
паркет без формата
ользуюИскровым Java. Мне нужно знать, есть ли разница (производительность и т. Д.) Между следующими методами записи в Hadoop: ds.write().mode(mode).format("orc").save(path);Или же ds.write().mode(mode).orc(path);Благодарю.