Uma organização decidiu monitorar a opinião do público sobre ela nas redes sociais. Para isso, processou as mensagens com referências ao seu nome, a fim de possibilitar o uso de uma técnica de processamento de linguagem natural conhecida como análise de sentimentos.
Após transformar cada mensagem em uma string, um dos passos importantes nessa técnica é a tokenização, que consiste em
-
A colocar todos os caracteres da mensagem em minúsculas.
-
B colocar todos os verbos da mensagem no infinitivo.
-
C dividir o texto da mensagem em palavras isoladas.
-
D eliminar todos os marcadores HTML ou XML da mensagem.
-
E substituir todos os caracteres acentuados da mensagem por suas versões sem acento.