Jak określić poprawne kodowanie plików do użycia z read.fwf (lub użyć obejścia w celu usunięcia niezgodnych znaków)

Próbowałem podejść do poniższego pytania i nadal tkwię.

Jak wykryć właściwe kodowanie dla read.csv?

Poniższy kod powinien być odtwarzalny ... Jakieś pomysły? Wolałbym nie używać scan () lub readLines, ponieważ z powodzeniem korzystałem z tego kodu do różnych danych ACS na poziomie stanu w przeszłości ....

Moją drugą myślą jest edycja pliku tekstowego przed jego zaimportowaniem. Przechowuję jednak pliki spakowane i używam skryptu do rozpakowania, a następnie dostępu do danych. Konieczność edytowania pliku poza środowiskiem R naprawdę podrażniłaby ten proces. Z góry dziękuję!

Filename <- "g20095us.txt"
Url <- "http://www2.census.gov/acs2005_2009_5yr/summaryfile/2005-2009_ACSSF_By_State_By_Sequence_Table_Subset/UnitedStates/All_Geographies_Not_Tracts_Block_Groups/"

Widths <- c(6,2,3,2,7,1,1,1,2,2,3,5,5,6,1,5,4,5,1,3,5,5,5,3,5,1,1,5,3,5,5,5,2,3,
        3,6,3,5,5,5,5,5,1,1,6,5,5,40,200,6,1,50)
Classes <- c(rep('character',4),'integer',rep('character',47))
Names <- c('fileid','stusab','sumlev','geocomp','logrecno','us','region','division',
       'statece','state','county','cousub','place','tract','blkgrp','concit',
       rep('blank',14),'ua',rep('blank',11),'ur',rep('blank',4),'geoid','name',rep('blank',3))
GeoHeader <- read.fwf(paste0(Url,Filename),widths=Widths,
                  colClasses=Classes,col.names=Names,fill=TRUE,strip.white=TRUE)

Cztery wiersze z pliku „g2009us.txt” poniżej. Drugi „Canoncito” powoduje problemy. Pozostałe pliki w pliku do pobrania to csv, ale ten plik ma stałą szerokość i jest niezbędny do identyfikacji geograficznych obszarów zainteresowania (organizacja danych nie jest zbyt intuicyjna).

ACSSF US251000000964 2430 090 25100US2430090 Rozdział Camerona, rezerwat państw Navajo i rezerwat gruntów powierniczych, AZ - NM - UT ACSSF US251000000965 2430 092 25100US2430092 Rozdział Cañoncito, rezerwat i rezerwat narodu Navajo, AZ - NM - UT ACSSF US251000000966 2430 095 25100US2430095 Rozdział Jeziora Casamero, Rezerwat Narodu Navajo i Rezerwat Powierniczy, AZ - NM - UT ACSSF US251000000967 2430 105 25100US2430105 Rozdział Chi Chil Tah, Rezerwat Narodu Navajo i Grunt Zaufania, AZ - NM --UT

questionAnswers(1)

yourAnswerToTheQuestion