Quais assuntos, tópicos, um graduado em ciência da computação precisa aprender para aplicar as estruturas de aprendizado de máquina disponíveis, esp. SVMs

Quero me ensinar aprendizado de máquina suficiente para que eu possa entender o suficiente para colocar em usoacessível estruturas ML de código aberto que me permitirão fazer coisas como:

Percorra a fonte HTML das páginas de um determinado site e "entenda" quais seções formam o conteúdo, quais anúncios e quais formam os metadados (nem o conteúdo nem os anúncios - por exemplo. - TOC, autor bio etc.)

Navegue pela fonte HTML de páginas de sites diferentes e "classifique" se o site pertence a uma categoria predefinida ou não (a lista de categorias será fornecida antes) 1.

... tarefas de classificação semelhantes em texto e páginas.

Como você pode ver, meus requisitos imediatos têm a ver com classificação emfontes de dados díspares eampla quantidades de dados.

No que diz respeito ao meu entendimento limitado, adotar a abordagem da rede neural precisará de muito treinamento e manutenção do que usar SVMs?

Entendo que os SVMs são adequados para tarefas de classificação (binárias) como a minha, e os framworks de código aberto como a libSVM são bastante maduros?

Nesse caso, quais assuntos e tópicos um graduado em ciência da computação precisa aprender agora, para que os requisitos acima possam ser resolvidos, colocando essas estruturas em uso?

Eu gostaria de ficar longe do Java, é possível e, de outra forma, não tenho preferências de idioma. Estou disposto a aprender e fazer o máximo de esforço possível.

Minha intenção não é escrever código do zero, mas, começando por colocar as várias estruturas disponíveis para uso (não sei o suficiente para decidir qual); eEu deveria ser capaz de consertar as coisas se elas derem errado.

Recomendações suas sobre o aprendizado de partes específicas da estatística e da teoria das probabilidades não são nada inesperados do meu lado, por isso diga que, se necessário!

Modificarei esta pergunta, se necessário, dependendo de todas as suas sugestões e comentários.

questionAnswers(4)

yourAnswerToTheQuestion