Python - удалить строки кодирования

Question

Feb 19, 2015, 04:37 PM

Python - удалить строки кодирования

Я обрабатываю множество текстовых файлов, которые (некоторые из них) содержат кодировку uuencoding, которая может быть .jpg или .pdf или .zip из .xlsx и т. Д. Меня не волнуют встроенные данные UUencoded, поэтому я просто хотел бы отбросить эти отрывки и сохранить остальную часть текста. Я борюсь с тем, как придумать метод, чтобы пропустить только достаточно, но не слишком много.

Подвести итогиhttp://en.wikipedia.org/wiki/Uuencoding каждый шарик начинается с

begin 644 filename.extension

каждая строка после начала 644, кажется, начинается с буквы

так что это также может помочь. Любая идея, как иметь функцию, которая удаляет все эти строки для всех TXT-файлов в папке (каталоге)?

Например, следующее .jpg uuencoding

GRAPHIC
18
g438975g32h99a01.jpg

begin 644 g438975g32h99a01.jpg
M_]C_X``02D9)1@`!`@Я обрабатываю множество текстовых файлов, которые (некоторые из них) содержат кодировку uuencoding, которая может быть .jpg или .pdf или .zip из .xlsx и т. Д. Меня не волнуют встроенные данные UUencoded, поэтому я просто хотел бы отбросить эти отрывки и сохранить остальную часть текста. Я борюсь с тем, как придумать метод, чтобы пропустить только достаточно, но не слишком много.
Подвести итогиhttp://en.wikipedia.org/wiki/Uuencoding каждый шарик начинается с
begin 644 filename.extension
каждая строка после начала 644, кажется, начинается с буквы
M
так что это также может помочь. Любая идея, как иметь функцию, которая удаляет все эти строки для всех TXT-файлов в папке (каталоге)?
Например, следующее .jpg uuencoding8`!@``#_[0G64&AO;=&]S:&]P(#,N,``X0DE-`^T`
M`````!``8`````Я обрабатываю множество текстовых файлов, которые (некоторые из них) содержат кодировку uuencoding, которая может быть .jpg или .pdf или .zip из .xlsx и т. Д. Меня не волнуют встроенные данные UUencoded, поэтому я просто хотел бы отбросить эти отрывки и сохранить остальную часть текста. Я борюсь с тем, как придумать метод, чтобы пропустить только достаточно, но не слишком много.
Подвести итогиhttp://en.wikipedia.org/wiki/Uuencoding каждый шарик начинается с
begin 644 filename.extension
каждая строка после начала 644, кажется, начинается с буквы
M
так что это также может помочь. Любая идея, как иметь функцию, которая удаляет все эти строки для всех TXT-файлов в папке (каталоге)?
Например, следующее .jpg uuencoding
`0!@`````0`!.$))300-```````Я обрабатываю множество текстовых файлов, которые (некоторые из них) содержат кодировку uuencoding, которая может быть .jpg или .pdf или .zip из .xlsx и т. Д. Меня не волнуют встроенные данные UUencoded, поэтому я просто хотел бы отбросить эти отрывки и сохранить остальную часть текста. Я борюсь с тем, как придумать метод, чтобы пропустить только достаточно, но не слишком много.
Подвести итогиhttp://en.wikipedia.org/wiki/Uuencoding каждый шарик начинается с
begin 644 filename.extension
каждая строка после начала 644, кажется, начинается с буквы
M
так что это также может помочь. Любая идея, как иметь функцию, которая удаляет все эти строки для всех TXT-файлов в папке (каталоге)?
Например, следующее .jpg uuencoding
```'CA"24TGRAPHIC
18
g438975g32h99a01.jpg

begin 644 g438975g32h99a01.jpg
M_]C_X``02D9)1@`!`@$`8`!@``#_[0G64&AO;=&]S:&]P(#,N,``X0DE-`^T`
M`````!``8`````$``0!@`````0`!.$))300-```````$````'CA"24T$&0``
M````!````!XX0DE-`_,```````D```````````$`.$))300*```````!```X
M0DE-)Q````````H``0`````````".$))30/U``````!(`"]F9@`!`&QF9;@`&
M```````!`"]F9@`!`*&9F@`&```````!`#(````!`%H````&```````!`#4`
M```!`"T````&```````!.$))30/X``````!P``#_____________________
M________`^@`````_____________________________P/H`````/______
M______________________\#Z`````#_____________________________
M`^@``#A"24T$"```````$`````$```)````"0``````X0DE-!!X```````0`
M````.$))300:``````!M````!@``````````````)P```+`````&`&<`,P`R
M`&@`.0`Y`````0`````````````````````````!``````````````"P````
M)P`````````````````````````````````````````````X0DE-!!$`````
M``$!`#A"24T$%```````!`````(X0DE-!`P`````!SH````!````<````!D`
M``%0```@T```!QX`&``!_]C_X``02D9)1@`!`@$`2`!(``#_[@`.061O8F4`
M9(`````!_]L`A``,"`@("0@,"0D,$0L*"Q$5#PP,#Q48$Q,5$Q,8$0P,#`P,
M#!$,#`P,#`P,#`P,#`P,#`P,#`P,#`P,#`P,#`P,`0T+"PT.#1`.#A`4#@X.
M%!0.#@X.%!$,#`P,#!$1#`P,#`P,$0P,#`P,#`P,#`P,#`P,#`P,#`P,#`P,
M#`P,#`S_P``1"``9`'`#`2(``A$!`Q$!_]T`!``'_\0!/P```04!`0$!`0$`
M`````````P`!`@0%!@<("0H+`0`!!0$!`0$!`0`````````!``(#!`4&!P@)
M"@L0``$$`0,"!`(%!P8(!0,,,P$``A$#!"$2,05!46$3(G&!,@84D:&Q0B;,D
M%5+!8C,T<H+10P)E\K.$P]-U
MX_-&)Y2DA;25Q-3D]*6UQ=7E]59F=H:6IK;&UN;V-T=79W>'EZ>WQ]?G]Q$`
M`@(!`@0$`P0%!@<'!@4U`0`"$0,A,1($05%A<2(3!3*!D12AL4(CP5+1\#,D
M8N%R@I)#4Q5C<S3Q)086HK*#!R8UPM)$DU2C%V1%539T9>+RLX3#TW7C\T:4
MI(6TE<34Y/2EM<75Y?569G:&EJ;:VQM;F]B
amp;0``
M````!````!XX0DE-`_,```````D```````````Я обрабатываю множество текстовых файлов, которые (некоторые из них) содержат кодировку uuencoding, которая может быть .jpg или .pdf или .zip из .xlsx и т. Д. Меня не волнуют встроенные данные UUencoded, поэтому я просто хотел бы отбросить эти отрывки и сохранить остальную часть текста. Я борюсь с тем, как придумать метод, чтобы пропустить только достаточно, но не слишком много.
Подвести итогиhttp://en.wikipedia.org/wiki/Uuencoding каждый шарик начинается с
begin 644 filename.extension
каждая строка после начала 644, кажется, начинается с буквы
M
так что это также может помочь. Любая идея, как иметь функцию, которая удаляет все эти строки для всех TXT-файлов в папке (каталоге)?
Например, следующее .jpg uuencoding.$))300*```````!```X
M0DE-)Q````````H``0`````````".$))30/U``````!(`"]F9@`!`&QF9;@`&
M```````!`"]F9@`!`*&9F@`&```````!`#(````!`%H````&```````!`#4`
M```!`"T````&```````!.$))30/X``````!P``#_____________________
M________`^@`````_____________________________P/H`````/______
M______________________\#Z`````#_____________________________
M`^@``#A"24T$"```````Я обрабатываю множество текстовых файлов, которые (некоторые из них) содержат кодировку uuencoding, которая может быть .jpg или .pdf или .zip из .xlsx и т. Д. Меня не волнуют встроенные данные UUencoded, поэтому я просто хотел бы отбросить эти отрывки и сохранить остальную часть текста. Я борюсь с тем, как придумать метод, чтобы пропустить только достаточно, но не слишком много.
Подвести итогиhttp://en.wikipedia.org/wiki/Uuencoding каждый шарик начинается с
begin 644 filename.extension
каждая строка после начала 644, кажется, начинается с буквы
M
так что это также может помочь. Любая идея, как иметь функцию, которая удаляет все эти строки для всех TXT-файлов в папке (каталоге)?
Например, следующее .jpg uuencoding
````Я обрабатываю множество текстовых файлов, которые (некоторые из них) содержат кодировку uuencoding, которая может быть .jpg или .pdf или .zip из .xlsx и т. Д. Меня не волнуют встроенные данные UUencoded, поэтому я просто хотел бы отбросить эти отрывки и сохранить остальную часть текста. Я борюсь с тем, как придумать метод, чтобы пропустить только достаточно, но не слишком много.
Подвести итогиhttp://en.wikipedia.org/wiki/Uuencoding каждый шарик начинается с
begin 644 filename.extension
каждая строка после начала 644, кажется, начинается с буквы
M
так что это также может помочь. Любая идея, как иметь функцию, которая удаляет все эти строки для всех TXT-файлов в папке (каталоге)?
Например, следующее .jpg uuencoding``)````"0``````X0DE-!!X```````0`
M````.$))300:``````!M````!@``````````````)P```+`````&`&<`,P`R
M`&@`.0`Y`````0`````````````````````````!``````````````"P````
M)P`````````````````````````````````````````````X0DE-!!Я обрабатываю множество текстовых файлов, которые (некоторые из них) содержат кодировку uuencoding, которая может быть .jpg или .pdf или .zip из .xlsx и т. Д. Меня не волнуют встроенные данные UUencoded, поэтому я просто хотел бы отбросить эти отрывки и сохранить остальную часть текста. Я борюсь с тем, как придумать метод, чтобы пропустить только достаточно, но не слишком много.
Подвести итогиhttp://en.wikipedia.org/wiki/Uuencoding каждый шарик начинается с
begin 644 filename.extension
каждая строка после начала 644, кажется, начинается с буквы
M
так что это также может помочь. Любая идея, как иметь функцию, которая удаляет все эти строки для всех TXT-файлов в папке (каталоге)?
Например, следующее .jpg uuencoding````
M``$!`#A"24T$%```````!`````(X0DE-!`P`````!SH````!````<````!D`
M``%0```@T```!QX`&``!_]C_X``02D9)1@`!`@Я обрабатываю множество текстовых файлов, которые (некоторые из них) содержат кодировку uuencoding, которая может быть .jpg или .pdf или .zip из .xlsx и т. Д. Меня не волнуют встроенные данные UUencoded, поэтому я просто хотел бы отбросить эти отрывки и сохранить остальную часть текста. Я борюсь с тем, как придумать метод, чтобы пропустить только достаточно, но не слишком много.
Подвести итогиhttp://en.wikipedia.org/wiki/Uuencoding каждый шарик начинается с
begin 644 filename.extension
каждая строка после начала 644, кажется, начинается с буквы
M
так что это также может помочь. Любая идея, как иметь функцию, которая удаляет все эти строки для всех TXT-файлов в папке (каталоге)?
Например, следующее .jpg uuencoding2`!(``#_[@`.061O8F4`
M9(`````!_]L`A``,"`@("0@,"0D,$0L*"Q$5#PP,#Q48$Q,5$Q,8$0P,#`P,
M#!$,#`P,#`P,#`P,#`P,#`P,#`P,#`P,#`P,#`P,`0T+"PT.#1`.#A`4#@X.
M%!0.#@X.%!$,#`P,#!$1#`P,#`P,$0P,#`P,#`P,#`P,#`P,#`P,#`P,#`P,
M#`P,#`S_P``1"``9`'`#`2(``A$!`Q$!_]T`!``'_\0!/P```04!`0$!`0Я обрабатываю множество текстовых файлов, которые (некоторые из них) содержат кодировку uuencoding, которая может быть .jpg или .pdf или .zip из .xlsx и т. Д. Меня не волнуют встроенные данные UUencoded, поэтому я просто хотел бы отбросить эти отрывки и сохранить остальную часть текста. Я борюсь с тем, как придумать метод, чтобы пропустить только достаточно, но не слишком много.
Подвести итогиhttp://en.wikipedia.org/wiki/Uuencoding каждый шарик начинается с
begin 644 filename.extension
каждая строка после начала 644, кажется, начинается с буквы
M
так что это также может помочь. Любая идея, как иметь функцию, которая удаляет все эти строки для всех TXT-файлов в папке (каталоге)?
Например, следующее .jpg uuencoding
M`````````P`!`@0%!@<("0H+`0`!!0$!`0$!`0`````````!``(#!`4&!P@)
M"@L0``$`0,"!`(%!P8(!0,,,PЯ обрабатываю множество текстовых файлов, которые (некоторые из них) содержат кодировку uuencoding, которая может быть .jpg или .pdf или .zip из .xlsx и т. Д. Меня не волнуют встроенные данные UUencoded, поэтому я просто хотел бы отбросить эти отрывки и сохранить остальную часть текста. Я борюсь с тем, как придумать метод, чтобы пропустить только достаточно, но не слишком много.
Подвести итогиhttp://en.wikipedia.org/wiki/Uuencoding каждый шарик начинается с
begin 644 filename.extension
каждая строка после начала 644, кажется, начинается с буквы
M
так что это также может помочь. Любая идея, как иметь функцию, которая удаляет все эти строки для всех TXT-файлов в папке (каталоге)?
Например, следующее .jpg uuencoding`A$#!"$2,05!46$3(G&!,@84D:&Q0B;,D
M%5+!8C,T<H+10P)E\K.$P]-U
MX_-&)Y2DA;25Q-3D]*6UQ=7E]59F=H:6IK;&UN;V-T=79W>'EZ>WQ]?G]QЯ обрабатываю множество текстовых файлов, которые (некоторые из них) содержат кодировку uuencoding, которая может быть .jpg или .pdf или .zip из .xlsx и т. Д. Меня не волнуют встроенные данные UUencoded, поэтому я просто хотел бы отбросить эти отрывки и сохранить остальную часть текста. Я борюсь с тем, как придумать метод, чтобы пропустить только достаточно, но не слишком много.
Подвести итогиhttp://en.wikipedia.org/wiki/Uuencoding каждый шарик начинается с
begin 644 filename.extension
каждая строка после начала 644, кажется, начинается с буквы
M
так что это также может помочь. Любая идея, как иметь функцию, которая удаляет все эти строки для всех TXT-файлов в папке (каталоге)?
Например, следующее .jpg uuencoding
M`@(!`@0Я обрабатываю множество текстовых файлов, которые (некоторые из них) содержат кодировку uuencoding, которая может быть .jpg или .pdf или .zip из .xlsx и т. Д. Меня не волнуют встроенные данные UUencoded, поэтому я просто хотел бы отбросить эти отрывки и сохранить остальную часть текста. Я борюсь с тем, как придумать метод, чтобы пропустить только достаточно, но не слишком много.
Подвести итогиhttp://en.wikipedia.org/wiki/Uuencoding каждый шарик начинается с
begin 644 filename.extension
каждая строка после начала 644, кажется, начинается с буквы
M
так что это также может помочь. Любая идея, как иметь функцию, которая удаляет все эти строки для всех TXT-файлов в папке (каталоге)?
Например, следующее .jpg uuencodingP0%!@<'!@4U`0`"$0,A,1($05%A<2(3!3*!D12AL4(CP5+1\#,D
M8N%R@I)#4Q5C<S3Q)086HK*#!R8UPM)$DU2C%V1%539T9>+RLX3#TW7C\T:4
MI(6TE<34Y/2EM<75Y?569G:&EJ;:VQM;F]B

Я хотел бы остаться только с

GRAPHIC
18
g438975g32h99a01.jpg

Для справки, см. Также мой предыдущий вопросКак убрать странную кодировку из txt файла

РЕДАКТИРОВАТЬ: Вот попытка

start_marker = 'begin 644'

with open('fileWithBegin644.txt') as inf:
    ignoreLines = False
    for line in inf:
        if start_marker in line:
            print line,
            ignoreLines = True         
        if not ignoreLines:
    with open("strip_" + inf, "w") as f: 
        f.write(line.get_text().encode('utf-8'))

Но я получаю следующую ошибку

  File "removeUuencodingFromAll.py", line 10
    with open("strip_" + inf, "w") as f: 
    ^
IndentationError: expected an indented block

Python - удалить строки кодирования

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Python - удалить строки кодирования

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы