R und makePSOCKcluter EC2 socketConnection

Ich möchte in der Lage sein, meinen Mac mit meinen EC2-Instanzen zu verbinden, um auf AWS über die parallele Verarbeitung durchzuführenparallel Paket mitmakePSOCKcluster odermakeSOCKCluster.

Im Moment lässt mein Versuch R hängen, also habe ich das angepasstmakePSOCKclusterund einige seiner Unterprogramme, so dass einige seiner Ausgaben durch Hinzufügen von a angezeigt werden können-v Option auf die ssh. Ich glaube, ich habe es geschafft, mit dem passwortlosen SSH-Login umzugehen, aber ich bleibe beimsocketConnection Teil, von dem ich denke, dass er Probleme verursacht.

Ich habe versucht, elastische IPs zuzuordnen und diese als vergebliche IP-Adressen zu verwenden. Ich habe auch versucht, die Sicherheitsgruppen so anzupassen, dass sie den Standardport enthalten, den makePSOCKcluster ebenfalls vergeblich verwendet ... Im letzteren Fall habe ich nicht verwendet das Argument ports und verwendete die Standardoption port von 10187, zu der es sagt:

Error in socketConnection("localhost", port = port, server = TRUE, blocking = TRUE,  : 
  cannot open the connection
In addition: Warning message:
In socketConnection("localhost", port = port, server = TRUE, blocking = TRUE,  :
  port 10187 cannot be opened

Auf der Suche nach ein paar Fragen zu HPC-Mailinglisten schien dies ein Problem im Zusammenhang mit Windows zu sein. Da ich jedoch eine Verbindung über einen Mac herstelle, glaube ich nicht, dass ich in diese Kategorie falle.

Dashosts object ist nur das öffentliche DNS, das nach dem Starten einer EC2-Instanz bereitgestellt wird.

Das Folgende ist mein aktueller Versuch, einige der Änderungen vorzunehmenmakePSOCKcluster Funktion zumakePSOCKcluster1 Sie sollten ungefähr gleich sein.

Ich habe das angegebenrscript Parameter zu entsprechen, was auf einer Ubuntu-Instanz zu erwarten wäre, und ich habe die angegebenubuntu als Benutzername für die Anmeldung an der Ubuntu EC2-Instanz.

makePSOCKcluster1 <- function (names, ...) {
    if (is.numeric(names)) 
        names <- rep("localhost", names[1])
    options <- parallel:::addClusterOptions(parallel:::defaultClusterOptions, list(...))
    cl <- vector("list", length(names))
    for (i in seq_along(cl)) cl[[i]] <- newPSOCKnode1(names[[i]], 
        options = options, rank = i)
    class(cl) <- c("SOCKcluster", "cluster")
    cl
}



newPSOCKnode1 <- function (machine = "localhost", ..., options = parallel:::defaultClusterOptions, 
                           rank) 
{
    options <- options
    if (is.list(machine)) {
        options <- options
        machine <- machine$host
    }
    outfile <- parallel:::getClusterOption("outfile", options)
    master <- if (machine == "localhost") 
        "localhost"
    else parallel:::getClusterOption("master", options)
    port <- parallel:::getClusterOption("port", options)
    manual <- parallel:::getClusterOption("manual", options)
    timeout <- parallel:::getClusterOption("timeout", options)
    methods <- parallel:::getClusterOption("methods", options)
    useXDR <- parallel:::getClusterOption("useXDR", options)
    env <- paste("MASTER=", master, " PORT=", port, " OUT=", 
                 outfile, " TIMEOUT=", timeout, " METHODS=", methods, 
                 " XDR=", useXDR, sep = "")
    arg <- "parallel:::.slaveRSOCK()"
    rscript <- if (parallel:::getClusterOption("homogeneous", options)) {
        shQuote(parallel:::getClusterOption("rscript", options))
    }
    else "Rscript"
    cmd <- paste(rscript, "-e", shQuote(arg), env)
    renice <- parallel:::getClusterOption("renice", options)
    if (!is.na(renice) && renice) 
        cmd <- sprintf("nice +%d %s", as.integer(renice), cmd)
    if (manual) {
        cat("Manually start worker on", machine, "with\n    ", 
            cmd, "\n")
        flush.console()
    }
    else {
        if (machine != "localhost") {
            rshcmd <- parallel:::getClusterOption("rshcmd", options)
            user <- parallel:::getClusterOption("user", options)
            cmd <- shQuote(cmd)
            cmd <- paste(rshcmd, "-v -l", user, machine, cmd)
            print(cmd)
        }
        if (.Platform$OS.type == "windows") {
            system(cmd, wait = FALSE, input = "")
        }
        else system(cmd, wait = FALSE)
    }
    print("ssh done!!! about to start socketConnection....")
    con <- socketConnection("localhost", port = port, server = TRUE, 
                            blocking = TRUE, open = "a+b", timeout = timeout)
    print("socketConnection complete!!!")
    structure(list(con = con, host = machine, rank = rank), class = if (useXDR) 
        "SOCKnode"
              else "SOCK0node")
}



 hosts <- c("ec2-xxx-xx-xxx-xxxx.zone.compute.amazonaws.com","ec2-xx-xxx-xxx-xxx.zone.compute.amazonaws.com")
 # the code to try and connect to the actual EC2 instance...
 cl1 <- makePSOCKcluster1(hosts, user="ubuntu", rscript="/usr/lib/R/bin/Rscript", port=8787)



[1] "ssh -v -l ubuntu ec2-xxxxxxxxxxx.zone.compute.amazonaws.com \"'/usr/lib/R/bin/Rscript' -e 'parallel:::.slaveRSOCK()' MASTER=local.machine.name PORT=8787 OUT=/dev/null TIMEOUT=2592000 METHODS=TRUE XDR=TRUE\""
[1] "ssh done!!! about to start socketConnection...."
OpenSSH_5.2p1, OpenSSL 0.9.8r 8 Feb 2011
debug1: Reading configuration data /etc/ssh_config
debug1: Connecting to ec2-xxxxxxxxxxx.zone.compute.amazonaws.com [xx.xxx.xx.x.x] port 22.
debug1: Connection established.
debug1: identity file /Users/username/.ssh/identity type -1
debug1: identity file /Users/username/.ssh/id_rsa type 1
debug1: identity file /Users/username/.ssh/id_dsa type 2
debug1: Remote protocol version 2.0, remote software version OpenSSH_5.9p1 Debian-5ubuntu1
debug1: match: OpenSSH_5.9p1 Debian-5ubuntu1 pat OpenSSH*
debug1: Enabling compatibility mode for protocol 2.0
debug1: Local version string SSH-2.0-OpenSSH_5.2
debug1: SSH2_MSG_KEXINIT sent
debug1: SSH2_MSG_KEXINIT received
debug1: kex: server->client aes128-ctr hmac-md5 none
debug1: kex: client->server aes128-ctr hmac-md5 none
debug1: SSH2_MSG_KEX_DH_GEX_REQUEST(1024<1024<8192) sent
debug1: expecting SSH2_MSG_KEX_DH_GEX_GROUP
debug1: SSH2_MSG_KEX_DH_GEX_INIT sent
debug1: expecting SSH2_MSG_KEX_DH_GEX_REPLY
Warning: Permanently added 'ec2-xx-xx-xxx-xxx-xx.ap-southeast-1.compute.amazonaws.com,xx.xxx.xxx.xx.x' (RSA) to the list of known hosts.
debug1: ssh_rsa_verify: signature correct
debug1: SSH2_MSG_NEWKEYS sent
debug1: expecting SSH2_MSG_NEWKEYS
debug1: SSH2_MSG_NEWKEYS received
debug1: SSH2_MSG_SERVICE_REQUEST sent
debug1: SSH2_MSG_SERVICE_ACCEPT received
debug1: Authentications that can continue: publickey
debug1: Next authentication method: publickey
debug1: Offering public key: /Users/username/.ssh/id_rsa
debug1: Server accepts key: pkalg ssh-rsa blen 277
debug1: Authentication succeeded (publickey).
debug1: channel 0: new [client-session]
debug1: Requesting [email protected]
debug1: Entering interactive session.
debug1: Sending command: '/usr/lib/R/bin/Rscript' -e 'parallel:::.slaveRSOCK()' MASTER=local.machine.name PORT=8787 OUT=/dev/null TIMEOUT=2592000 METHODS=TRUE XDR=TRUE
debug1: client_input_channel_req: channel 0 rtype exit-status reply 0
debug1: channel 0: free: client-session, nchannels 1
debug1: fd 0 clearing O_NONBLOCK
debug1: fd 1 clearing O_NONBLOCK
debug1: fd 2 clearing O_NONBLOCK
Transferred: sent 2352, received 2400 bytes, in 20.0 seconds
Bytes per second: sent 117.5, received 119.9
debug1: Exit status 1

Ich verwende einen Mac unter OS X 10.6.8, um eine Verbindung zu einer Debian Ubunutu-Instanz herzustellen. Wenn es bessere Möglichkeiten gibt, eine Verbindung zu den EC2-Instanzen herzustellen, um eine Parallelverarbeitung durchzuführen, von der die Leute wissen, wäre dies ebenfalls äußerst nützlich.

Das Endziel ist zu verwendenforeach Diese Verarbeitung wird ausgeführt, sobald der Cluster registriert wurde.

Als Nebenfrage habe ich mich auch gefragt, welche Vor- und Nachteile hat die parallele Ausführung eines Prozesses im Vergleich zur Verwendung von MPI für die Geschwindigkeit / Verarbeitung? oder eine andere Methode?

Danke im Voraus!

BEARBEITEN Ich habe es geschafft, die zu bekommenmakePSOCKcluster zu arbeiten, wenn von einer separaten EC2-Instanz gestartet wird, und dieparLapply funktion funktioniert, und ich kann mich sogar mit registrierenregisterDoParallel(cl1) wohercl1 ist das Cluster-Objekt, aber aus irgendeinem Grundforeach...%dopar% funktioniert nicht ... Fehler melden:

Error in serialize(data, node$con) : error writing to connection

oder

Error in unserialize(node$con) : error reading from connection

die verbindungen scheinen in ordnung zu seinshowConnections() mit diesem als die folgende Ausgabe:

> showConnections()
  description                                                 class      mode  text     isopen   can read can write
3 "<-ip-xx-xxxx-x-xxx.zone.compute.internal:10187"   "sockconn" "a+b" "binary" "opened" "yes"    "yes"    
4 "<-ip-yy-yyyy-y-yyyy.zone.compute.internal:10187" "sockconn" "a+b" "binary" "opened" "yes"    "yes"    
5 "<-ip-zz-zzzz-z-zzzz.zone.compute.internal:10187"  "sockconn" "a+b" "binary" "opened" "yes"    "yes"    
> 

woherx,y & z Stellen Sie die verschiedenen IP-Adressen darforeach Beispiele kommen direkt aus den Beispielen in den Hilfedateien vonforeach und außerdem einige derclusterCall/clusterExport/clusterEvalQ Funktionen aus demparallel Paket funktioniert auch nicht ... gibt eine ähnliche Fehlermeldung aus wie zuvor ....

Ich möchte immer noch eine Verbindung von einem Mac herstellen können ... aber ich möchte auch immer noch foreach verwenden können, um eine parallele Verarbeitung durchzuführen ... hoffe, die zusätzlichen Informationen helfen

Antworten auf die Frage(0)

Ihre Antwort auf die Frage