Usando R para agrupar com base na distância euclidiana e em uma métrica de ligação completa, há muitos vetores?

Estou tentando descobrir como ler em uma matriz de contagens em R e, em seguida, agrupar com base na distância euclidiana e em uma métrica de ligação completa. A matriz original possui 56.000 linhas (genes) e 7 colunas (tratamentos). Quero ver se existe uma relação de agrupamento entre os tratamentos. No entanto, sempre que tento fazer isso, recebo um erro informando,Error: cannot allocate vector of size 544.4 Gb Como estou tentando reproduzir um trabalho que foi publicado por outra pessoa, pergunto-me se estou cometendo um erro com minha entrada de dados inicial.

Segundo, se eu tentar esse agrupamento com apenas 20 genes dos 56.000, sou capaz de fazer um dendrograma de agrupamento, mas os ramos não são amostras experimentais. O artigo que estou tentando replicar fez esse agrupamento com o dendrograma resultante exibindo amostras de agrupamento.

Aqui está o código que estou tentando executar:

exprs <- as.matrix(read.table("small_RMA_table.txt", header=TRUE, sep = "\t", row.names = 1, as.is=TRUE))
eucl_dist=dist(matrix(exprs),method = 'euclidean')
hie_clust=hclust(eucl_dist,method = 'complete')
plot(hie_clust)

E aqui está uma amostra da minha tabela de dados:

    AGS KATOIII MKN45   N87 SNU1    SNU5    SNU16
1_DDR1  11.18467721 11.91358171 11.81568242 11.08565284 8.054326631 12.46899188 10.54972491
2_RFC2  9.19869822  9.609015734 8.925772678 8.3641799   8.550993726 10.32160527 9.421779056
3_HSPA6 6.455324139 6.088320986 7.949175048 6.128573129 6.113793411 6.317460116 7.726657567
4_PAX8  8.511225092 8.719103196 8.706242048 8.705618546 8.696547633 9.292782564 8.710369119
5_GUCA1A    3.773404228 3.797729793 3.574286779 3.848753216 3.684193193 3.66065606  3.88239872
6_UBA7  6.477543321 6.631538303 6.506133756 6.433793116 6.145507918 6.92197071  6.479113995
7_THRA  6.263090367 6.507397854 6.896879084 6.696356125 6.243160864 6.936051147 6.444444498
8_PTPN21    6.88050894  6.342007735 6.55408163  6.099950167 5.836763044 5.904301086 6.097067306
9_CCL5  6.197989448 4.00619542  4.445053893 7.350765625 3.892650264 7.140038596 4.123639647
10_CYP2E1   4.379433632 4.867741561 4.719912827 4.547433566 6.530890968 4.187701905 4.453267508
11_EPHB3    6.655231606 7.984278173 7.025962652 7.111129175 6.246989328 6.169529157 6.546374446
12_ESRRA    8.675023046 9.270153715 8.948209029 9.412638347 9.4470612   9.98312055  9.534236722
13_CYP2A6   6.834018146 7.18386746  6.826740822 7.244411918 6.744588768 6.715122111 7.302922762
14_SCARB1   8.856802264 8.962211232 8.975200168 9.710291176 9.120002571 10.29588004 10.55749325
15_TTLL12   8.659539601 9.93935462  8.309244963 9.21145716  9.792647852 10.46958091 10.51879844
16_LINC00152    5.108632654 4.906321384 4.958158343 5.315532543 5.456138001 5.242577092 5.180295902
17_WFDC2    5.595843025 5.590991341 5.776102664 5.622086284 5.273603946 5.304240608 5.573746302
18_MAPK1    6.970036434 5.739881305 4.927993642 5.807358161 7.368137365 6.17697538  5.985006279
19_MAPK1    8.333269232 8.758733916 7.855324572 9.03596893  7.808283302 7.675434022 7.450262521
20_ADAM32   4.075355477 4.216259982 4.653654879 4.250333684 4.648194266 4.250333684 4.114286071

As linhas descrevem genes (Ex., 1_DDR1, 2_RFC2, etc.) e as colunas são amostras experimentais (Ex. AGS, KATOIII). Desejo ver a relação das amostras no cluster.

Aqui está o meu dendrograma de amostra que meu código produz. Eu pensei que iria mostrar apenas 7 ramos refletindo minhas 7 amostras:

O dendograma do artigo (incluindo essas 8 amostras e muitas outras também) está abaixo:

Obrigado por qualquer ajuda que você pode fornecer!

questionAnswers(3)

yourAnswerToTheQuestion