Кроме того, поскольку $ HADOOP_CONF_DIR не был установлен (я думал, что так и должно быть), необходимо ввести полный путь к файлу. Но после этого начальная служба YARN не запустится, поскольку не может найти файл, созданный позже в скрипте действий init. Итак, я добавил несколько последних строк в yarn-site.xml в скрипте действий init. Код для скрипта действий init выглядит следующим образом:

Question

Mar 29, 2018, 02:38 PM

google-cloud-dataproc google-cloud-platform yarn

Кроме того, поскольку $ HADOOP_CONF_DIR не был установлен (я думал, что так и должно быть), необходимо ввести полный путь к файлу. Но после этого начальная служба YARN не запустится, поскольку не может найти файл, созданный позже в скрипте действий init. Итак, я добавил несколько последних строк в yarn-site.xml в скрипте действий init. Код для скрипта действий init выглядит следующим образом:

ался настроить кластер dataproc, который будет одновременно вычислять только одно задание (или указывать максимальное количество заданий), а остальные будут в очереди.

Я нашел это решение,Как настроить монопольную очередь приложений FIFO в YARN? , но так как я всегда создаю новый кластер, мне нужно было автоматизировать это. Я добавил это для создания кластера:

"softwareConfig": {
    "properties": {
        "yarn:yarn.resourcemanager.scheduler.class":"org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler",
        "yarn:yarn.scheduler.fair.user-as-default-queue":"false",
        "yarn:yarn.scheduler.fair.allocation.file":"$HADOOP_CONF_DIR/fair-scheduler.xml",
     }
}

с другой строкой в скрипте действия init:

sudo echo "<allocations><queueMaxAppsDefault>1</queueMaxAppsDefault></allocations>" > /etc/hadoop/conf/fair-scheduler.xml

и кластер говорит мне это, когда я выбираю его конфигурацию:

'softwareConfig': {
  'imageVersion': '1.2.27',
  'properties': {
    'capacity-scheduler:yarn.scheduler.capacity.root.default.ordering-policy': 'fair',
    'core:fs.gs.block.size': '134217728',
    'core:fs.gs.metadata.cache.enable': 'false',
    'distcp:mapreduce.map.java.opts': '-Xmx4096m',
    'distcp:mapreduce.map.memory.mb': '5120',
    'distcp:mapreduce.reduce.java.opts': '-Xmx4096m',
    'distcp:mapreduce.reduce.memory.mb': '5120',
    'hdfs:dfs.datanode.address': '0.0.0.0:9866',
    'hdfs:dfs.datanode.http.address': '0.0.0.0:9864',
    'hdfs:dfs.datanode.https.address': '0.0.0.0:9865',
    'hdfs:dfs.datanode.ipc.address': '0.0.0.0:9867',
    'hdfs:dfs.namenode.http-address': '0.0.0.0:9870',
    'hdfs:dfs.namenode.https-address': '0.0.0.0:9871',
    'hdfs:dfs.namenode.secondary.http-address': '0.0.0.0:9868',
    'hdfs:dfs.namenode.secondary.https-address': '0.0.0.0:9869',
    'mapred-env:HADOOP_JOB_HISTORYSERVER_HEAPSIZE': '3840',
    'mapred:mapreduce.job.maps': '189',
    'mapred:mapreduce.job.reduce.slowstart.completedmaps': '0.95',
    'mapred:mapreduce.job.reduces': '63',
    'mapred:mapreduce.map.cpu.vcores': '1',
    'mapred:mapreduce.map.java.opts': '-Xmx4096m',
    'mapred:mapreduce.map.memory.mb': '5120',
    'mapred:mapreduce.reduce.cpu.vcores': '1',
    'mapred:mapreduce.reduce.java.opts': '-Xmx4096m',
    'mapred:mapreduce.reduce.memory.mb': '5120',
    'mapred:mapreduce.task.io.sort.mb': '256',
    'mapred:yarn.app.mapreduce.am.command-opts': '-Xmx4096m',
    'mapred:yarn.app.mapreduce.am.resource.cpu-vcores': '1',
    'mapred:yarn.app.mapreduce.am.resource.mb': '5120',
    'spark-env:SPARK_DAEMON_MEMORY': '3840m',
    'spark:spark.driver.maxResultSize': '1920m',
    'spark:spark.driver.memory': '3840m',
    'spark:spark.executor.cores': '8',
    'spark:spark.executor.memory': '37237m',
    'spark:spark.yarn.am.memory': '640m',
    'yarn:yarn.nodemanager.resource.memory-mb': '81920',
    'yarn:yarn.resourcemanager.scheduler.class': 'org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler',
    'yarn:yarn.scheduler.fair.allocation.file': '$HADOOP_CONF_DIR/fair-scheduler.xml',
    'yarn:yarn.scheduler.fair.user-as-default-queue': 'false',
    'yarn:yarn.scheduler.maximum-allocation-mb': '81920',
    'yarn:yarn.scheduler.minimum-allocation-mb': '1024'
  }
},

Файл fair-scheduler.xml также содержит указанный код (все в одной строке, но я не думаю, что это может быть проблемой)

После всего этого кластер все еще действует так, как если бы отвечал планировщик емкости. Понятия не имею почему. Любая рекомендация поможет. Благодарю.

Комментировать

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы