Matching-Algorithmen in R (Bipartite Matching, ungarischer Algorithmus)

Question

May 23, 2013, 01:34 AM

Matching-Algorithmen in R (Bipartite Matching, ungarischer Algorithmus)

Ich frage mich, wie ich einige grundlegende Abgleichsverfahren in R beispielhaft einrichten kann. Es gibt viele Beispiele in verschiedenen Programmiersprachen, aber ich habe noch kein gutes Beispiel für R gefunden.

Nehmen wir an, ich möchte Studenten mit Projekten in Verbindung bringen und ich würde drei alternative Ansätze in Betracht ziehen, auf die ich beim Googeln in diesem Thema gestoßen bin:

1) Zweiteiliger Matching-Fall: Ich fordere jeden Schüler auf, drei Projekte zu nennen, an denen er arbeiten möchte (ohne eine Präferenz unter diesen drei zu nennen).

ID  T.1 T.2 T.3 T.4 T.5 T.6 T.7
1   1   1   1   0   0   0   0
2   0   0   0   0   1   1   1
3   0   1   1   1   0   0   0
4   0   0   0   1   1   1   0
5   1   0   1   0   1   0   0
6   0   1   0   0   0   1   1
7   0   1   1   0   1   0   0

-

d.1 <- structure(list(Student.ID = 1:7, Project.1 = c(1L, 0L, 0L, 0L, 
1L, 0L, 0L), Project.2 = c(1L, 0L, 1L, 0L, 0L, 1L, 1L), Project.3 = c(1L, 
0L, 1L, 0L, 1L, 0L, 1L), Project.4 = c(0L, 0L, 1L, 1L, 0L, 0L, 
0L), Project.5 = c(0L, 1L, 0L, 1L, 1L, 0L, 1L), Project.6 = c(0L, 
1L, 0L, 1L, 0L, 1L, 0L), Project.7 = c(0L, 1L, 0L, 0L, 0L, 1L, 
0L)), .Names = c("Student.ID", "Project.1", "Project.2", "Project.3", 
"Project.4", "Project.5", "Project.6", "Project.7"), class = "data.frame", row.names = c(NA, 
-7L))

2) Ungarischer Algorithmus: Ich bitte jeden Schülernamen, 3 Projekte mit der Angabe einer Präferenzrangfolge zu bearbeiten "Kosten" für den Studenten.

ID  T.1 T.2 T.3 T.4 T.5 T.6 T.7
1   3   2   1   na  na  na  na
2   na  na  na  na  1   2   3
3   na  1   3   2   na  na  na
4   na  na  na  1   2   3   na
5   2   na  3   na  1   na  na
6   na  3   na  na  na  2   1
7   na  1   2   na  3   na  na

-

d.2 <- structure(list(Student.ID = 1:7, Project.1 = structure(c(2L, 3L, 
3L, 3L, 1L, 3L, 3L), .Label = c("2", "3", "na"), class = "factor"), 
    Project.2 = structure(c(2L, 4L, 1L, 4L, 4L, 3L, 1L), .Label = c("1", 
    "2", "3", "na"), class = "factor"), Project.3 = structure(c(1L, 
    4L, 3L, 4L, 3L, 4L, 2L), .Label = c("1", "2", "3", "na"), class = "factor"), 
    Project.4 = structure(c(3L, 3L, 2L, 1L, 3L, 3L, 3L), .Label = c("1", 
    "2", "na"), class = "factor"), Project.5 = structure(c(4L, 
    1L, 4L, 2L, 1L, 4L, 3L), .Label = c("1", "2", "3", "na"), class = "factor"), 
    Project.6 = structure(c(3L, 1L, 3L, 2L, 3L, 1L, 3L), .Label = c("2", 
    "3", "na"), class = "factor"), Project.7 = structure(c(3L, 
    2L, 3L, 3L, 3L, 1L, 3L), .Label = c("1", "3", "na"), class = "factor")), .Names = c("Student.ID", 
"Project.1", "Project.2", "Project.3", "Project.4", "Project.5", 
"Project.6", "Project.7"), class = "data.frame", row.names = c(NA, 
-7L))

3) ??? Ansatz: Dies sollte ziemlich viel mit (2) zu tun haben. Ich denke jedoch, dass es wahrscheinlich ein besserer / gerechterer Ansatz ist (zumindest in der Einstellung des Beispiels). Die Studierenden können keine Projekte auswählen, sie wissen sogar nichts über die Projekte, aber sie bewerten ihre Qualifikationen (1 "nicht vorhanden" bis 10 "professionelles Niveau") in Bezug auf eine bestimmte Qualifikation. Darüber hinaus hat der Dozent die erforderlichen Fähigkeiten für jedes Projekt bewertet. Zusätzlich zu (2) würde ein erster Schritt darin bestehen, eine Ähnlichkeitsmatrix zu berechnen und dann die Optimierungsroutine von oben auszuführen.

PS: Programming Skills
SK: Statistical Knowledge
IE: Industry Experience

ID  PS  SK  IE
1   10  9   8
2   1   2   10
3   10  2   5
4   2   5   3
5   10  2   10
6   1   10  1
7   5   5   5

-

d.3a <- structure(list(Student.ID = 1:7, Programming.Skills = c(10L, 1L, 
10L, 2L, 10L, 1L, 5L), Statistical.knowlegde = c(9L, 2L, 2L, 
5L, 2L, 10L, 5L), Industry.Expertise = c(8L, 10L, 5L, 3L, 10L, 
1L, 5L)), .Names = c("Student.ID", "Programming.Skills", "Statistical.knowlegde", 
"Industry.Expertise"), class = "data.frame", row.names = c(NA, 
-7L))

-

T: Topic ID
PS: Programming Skills
SK: Statistical Knowledge
IE: Industry Experience

T  PS   SK  IE
1   10  5   1
2   1   1   5
3   10  10  10
4   2   8   3
5   4   3   2
6   1   1   1
7   5   7   2

-

d.3b <- structure(list(Project.ID = 1:7, Programming.Skills = c(10L, 
1L, 10L, 2L, 4L, 1L, 5L), Statistical.Knowlegde = c(5L, 1L, 10L, 
8L, 3L, 1L, 7L), Industry.Expertise = c(1L, 5L, 10L, 3L, 2L, 
1L, 2L)), .Names = c("Project.ID", "Programming.Skills", "Statistical.Knowlegde", 
"Industry.Expertise"), class = "data.frame", row.names = c(NA, 
-7L))

Ich würde mich über jede Hilfe bei der Umsetzung dieser drei Ansätze in R freuen. Vielen Dank.

UPDATE: Die folgenden Fragen scheinen im Zusammenhang zu stehen, aber keine zeigt, wie man sie in R löst:https://math.stackexchange.com/questions/132829/group-membership-assignment-by-preferences-optimization-problem https://superuser.com/questions/467577/using-optimization-to-assign-by-preference