Estava precisando hoje de algo que não tinha visto antes: uma wordlist com palavras em Português! Arrumar uma lista de palavras em inglês ou outras línguas até, como hungaro foi até simples, mas em Português realmente estava muito difícil. Parei para pensar um pouco sobre como obter uma boa lista de palavras em nosso idioma. Qual a maior fonte de palavras em Português que conheço e que esteja disponível gratuitamente na Internet? BrOffice.org! Creio que não haja nenhum outro projeto aberto que tenha conseguido realizar uma listagem tão grande quanto à do projeto brasileiro do OpenOffice.org. A lista de palavras do BrOffice.org pode ser baixada em aqui.

Após ter obtido o arquivo, é necessário extrair seu conteúdo e realizar alguns procedimentos:

  • Instalação do pacote ispell, caso sua distro ainda não possua. Utilizando Fedora Core 6, passei por um problema, pois existe um outro pacote (aspell) que substitui o antigo ispell. Porém, o aspell não possui o binário buildhash, necessário para a compilação das palavras.
  • Compilação das palavras através do comando “make palavras” que pode ser executado na raiz do pacote descompactado.

Após estes passos, será gerado um novo arquivo chamado “palavras.ispell” contendo 261799 palavras, com verbos e adjetivos e substantivos. Esta lista pode ser facilmente unida à wordlist criada anteriormente em outro post. Para unir, basta o comando abaixo.

$ cat palavras.ispell wordlist.txt | sort | uniq > grandelista.txt

Após isto, agora temos uma wordlist com dois idiomas contendo quase 600 mil termos! Acho que com isso já me serve no momento! :)

Até mais! :D