Как проверить, является ли файл действительным UTF-8?

Я обрабатываю некоторые файлы данных, которые, как предполагается, являются действительными UTF-8, но не являются таковыми, что приводит к сбою синтаксического анализатора (не под моим контролем). Я хотел бы добавить этап предварительной проверки данных для правильности UTF-8, но я еще не нашел утилиту, которая бы помогала в этом.

Там естьвеб-сервис на W3C, который кажется мертвым, и я нашел проверку только для Windowsинструмент он сообщает о недействительных файлах UTF-8, но не сообщает, какие строки / символы нужно исправить.

Я был бы доволен либо инструментом, который я могу добавить и использовать (в идеале кроссплатформенный), либо сценарием ruby / perl, который я могу сделать частью моего процесса загрузки данных.

Ответы на вопрос(5)

Ваш ответ на вопрос