R-Anteil-Vertrauensintervallfaktor

Question

Jul 23, 2013, 07:47 AM

R-Anteil-Vertrauensintervallfaktor

Ich versuche, Daten aus einer Haushaltsumfrage zusammenzufassen, und als solche handelt es sich bei den meisten meiner Daten um kategoriale (Faktor-) Daten. Ich habe versucht, es mit grafischen Darstellungen der Häufigkeit von Antworten auf bestimmte Fragen zusammenzufassen (z. B. eine Balkengrafik der Prozentsätze der Haushalte, die bestimmte Fragen beantwortet haben, wobei Fehlerbalken Vertrauensbereiche anzeigen). Ich fand dieses hervorragende Tutorial, das ich für die Antwort auf meine Gebete gehalten hatte (http://www.cookbook-r.com/Manipulating_data/Summarizing_data/), aber dies wird nur bei kontinuierlichen Daten helfen.

Was ich brauche, ist etwas Ähnliches, mit dem ich Zählungsanteile und Standardfehler / Konfidenzintervalle dieser Anteile berechnen kann.

Grundsätzlich möchte ich in der Lage sein, Übersichtstabellen zu erstellen, die für jede der in meinen Umfragedaten gestellten Fragen so aussehen:

# X5employf X5employff  N(count) proportion SE of prop.  ci of prop
#   1          1        20    0.64516129    ?             ?       
#   1          2         1    0.03225806    ?             ?  
#   1          3         9    0.29032258    ?             ?
#   1          NA        1    0.290322581    ?            ?
#   2          4             1    0.1            ?             ?


structure(list(X5employf = structure(c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L), .Label = c("1", "2", "3"), class = "factor"), X5employff = structure(c(1L, 2L, 3L, NA, 4L, 5L, 6L, 7L, 8L, 4L, 5L, 6L, 7L), .Label = c("1", "2", "3", "4", "5", "6", "7", "8"), class = "factor"), count = c(20L, 1L, 9L, 1L, 1L, 5L, 2L, 1L, 1L, 4L, 5L, 4L, 1L)), .Names = c("X5employf", "X5employff", "count"), row.names = c(NA, -13L), class = "data.frame")

Ich würde dann Barplots in ggplot (oder ähnlichem) zeichnen wollen, indem ich diese zusammenfassenden Daten mit Fehlerbalken verwende, die die Konfidenzintervalle zeigen.

Ich hatte darüber nachgedacht, den Code im obigen Tutorial zu ändern, um die obigen Spalten zu berechnen, obwohl ich als relativer Neuling in R ein wenig zu kämpfen habe! Ich habe mit dem ggply-Paket experimentiert, aber die Syntax ist nicht so gut, so dass ich mit folgendem Code soweit gekommen bin:

> X5employ_props <- ddply(X5employ_counts, .(X5employf), transform, prop=count/sum(count))

Aber ich lande damit:

   X5employf X5employff count      prop
1          1          1    20 1.0000000
2          1          2     1 1.0000000
3          1          3     9 1.0000000
4          2          4     1 0.2000000
5          3          4     4 0.8000000
6          2          5     5 0.5000000
7          3          5     5 0.5000000
8          2          6     2 0.3333333
9          3          6     4 0.6666667
10         2          7     1 0.5000000
11         3          7     1 0.5000000
12         2          8     1 1.0000000
13         1       <NA>     1 1.0000000

Wenn alle meine Anteile 1 sind, vermutlich, weil sie quer berechnet werdenReihen und nichtSäulen

Ich fragte mich, ob irgendjemand helfen könnte oder von Paketen / Code weiß, die den Job für mich erledigen würden!