UM BANCO DE WORD EMBEDDINGS PARA O PORTUGUÊS BRASILEIRO

Douglas Eduardo Modena dos Santos

Douglas Eduardo Modena dos Santos

Prédio: Bloco E - Salas de aulas teóricas
Sala: E3
Data: 2016-10-21 10:00 – 10:15
Última alteração: 2016-10-11

Resumo

Definição do Problema: Em linguagens naturais, uma palavra possui significado além de um simples conjunto de letras organizados em certa ordem. Uma série de conceitos e alusões existem por trás de cada palavra na mente humana, porém o mesmo não é valido para sistemas computacionais, que reconhecem uma palavra simplesmente como um conjunto de caracteres. Modelos de língua que sejam adequados ao tratamento computacional são fundamentais para o sucesso dos métodos de processamento de línguas naturais. Nos últimos anos, a representação de palavras por meio de vetores tem gerado resultados bastante promissores. Tais vetores são treinados por modelos neurais (Bengio et al., 2003; Mikolov et al., 2013) em grandes corpora por meio de técnicas de aprendizado de máquina não supervisionado. Entretanto, a geração de vetores demanda tempo e recursos computacionais, e além disso, vetores treinados em diferentes domínios tendem a apresentar propriedades diferentes (Lai, 2015). Objetivo: Pretende-se criar um banco de vetores treinados em corpora do português brasileiro de pelo menos três domínios: conhecimento geral, texto jornalístico e domínio agropecuário. Após a geração de tais vetores, os mesmos serão avaliados usando tarefa de classificação textual (como análise de sentimentos, por exemplo). Justificativa: Os vetores gerados estarão disponíveis para uso na área de pesquisa de Processamento de Linguagens Naturais (PLN), ou para diversas aplicações, poupando tempo e recursos que seriam necessários para a geração de tais vetores para novas pesquisas, além de proporcionar uma maneira de avaliação dos vetores aos interessados, permitindo julgar a qualidade dos recursos sem demandar esforço próprio. Metodologia: Diferentes corpora serão utilizados para a geração dos vetores, como o Wikipédia, corpus CETENFolha e textos públicos coletados da Internet. A partir dos corpora, será realizada a geração dos vetores utilizando ferramentas como Word2Vec e GloVe. Cada conjunto de vetores será previamente avaliado por meio de uma tarefa de classificação textual, implementada com o uso de ferramentas como Scikit-Learn e TensorFlow. Os resultados dessas avaliações e outros metadados serão publicados juntamente com o banco de vetores. O projeto encontra-se em fase inicial, e espera-se que o sucesso desse projeto beneficie outros trabalhos, dada a importância atual dos vetores de palavras para o PLN.

Texto completo: PDF