Desenvolvimento de ferramentas computacionais auxilia processamento de dados dialetais e lexicográficos

Bárbara Amaral da Silva, professora da Universidade Federal de Minas Gerais, editora da revista Texto Livre, Belo Horizonte, MG, Brasil.

Daniervelin Renata Marques Pereira, professora da Universidade Federal de Minas Gerais, editora da revista Texto Livre, Belo Horizonte, MG, Brasil.

O artigo Desenvolvimento de ferramentas computacionais para o processamento de dados dialetais e lexicográficos, publicado na revista Texto Livre: Linguagem e Tecnologia (vol. 16, 2023), escrito por Jorge Luiz Nunes dos Santos Junior (Universidade Federal de Mato Grosso do Sul), apresenta o desenvolvimento de ferramentas computacionais, ou linguagem de programação, que permitem o processamento de dados de natureza dialetal e lexicográfica.

A partir da criação de pequenos programas, isto é, programas de baixa complexidade e que podem ser desenvolvidos por pesquisadores iniciantes, e do armazenamento de dados em Extensible Markup Language (XML), o autor recuperou dados específicos de um corpus (Projeto Atlas Linguístico do Brasil) eletronicamente. A pesquisa evidenciou os benefícios de os próprios pesquisadores criarem ferramentas para evitar alguns problemas na análise de seus dados: lidar com as limitações de softwares; precisar terceirizar o trabalho e realizar manualmente aquilo que pode ser feito por uma máquina.

O artigo é parte de uma tese de doutorado ainda em desenvolvimento e integra um projeto maior, o Projeto Dicionário Dialetal Brasileiro (DDB), cujo objetivo é tratar de forma lexicográfica o corpus dialetal do Atlas Linguístico do Brasil (ALiB), que, por sua vez, tem como meta a identificação e a descrição do falar característico de todos os estados brasileiros.

O Projeto ALiB durou 12 anos (2001-2013) e, a partir de entrevistas gravadas, coletou a fala dos entrevistados em 250 localidades do país, formando um corpus extenso de dados e amparando diversos estudos que abordam o léxico, a semântica, a fonética, a fonologia e a sintaxe. De modo mais específico, a tese de doutorado tem o objetivo de criar o protótipo do Vocabulário Dialetal da Região Norte do Brasil (VoDiNorte).

Apesar do crescimento vertiginoso de tecnologias e, mais especificamente, de softwares que auxiliam os pesquisadores do campo da linguística a analisarem dados de um corpus, incluindo Lexicologia, Fraseologia, Terminologia, Lexicografia, Dialetologia etc., o artigo ressalta alguns problemas. O autor evidenciou que alguns dos softwares mais usados em análises lexicais, a exemplo do AntConc, LancsBox, WordSmith Tools Sketch Engine e FieldWorks Language Explore, são limitados, uma vez que só realizam as tarefas específicas para as quais o programa foi criado.

Ilustração isométrica de processamento de linguagem natural.

Imagem: Freepik.

Partindo dessa situação-problema, o autor propôs que seria ideal a criação, pelos próprios pesquisadores, de ferramentas computacionais personalizadas, de modo que esses pequenos programas realizassem as tarefas específicas de que o pesquisador necessita.

Na interdisciplinaridade de seu projeto, envolvendo a Linguística de Corpus, a Linguística Computacional, a Dialetologia e a Lexicografia, o autor apresentou a construção e a utilização de ferramentas de código aberto e livre produzidas com uso de linguagem de computação que atenderam seus objetivos de pesquisa. Nesse sentido, ele usou o software Base X, que permite a criação de um website incorporado a um banco de dados, para gerir um banco de dados em XML, e a linguagem de consulta X-Query.

O tratamento eletrônico, por fim, foi concedido aos dados do Projeto ALiB referentes a 18 locais pertencentes ao interior da região Norte do Brasil, levando em conta as variáveis consideradas pelo Projeto, sendo elas: sexo, idade, escolaridade e localidade, e, ainda, outros dez elementos que estruturam o protótipo do VoDiNorte, sendo eles: lema, classe gramatical, variação fonética, definição, exemplo, informante, áudio, pergunta, representação cartográfica e remissiva.

O estudo obteve como resultado que a criação das ferramentas computacionais foi eficaz para recuperar dados concebidos em XML. A pesquisa evidenciou o linguista como programador e tem o potencial de contribuir para pesquisadores de diferentes perspectivas da língua, uma vez que as buscas podem ser refinadas e filtradas, de modo a atender os objetivos específicos de cada pesquisador. Como ponderação final, o autor destaca que, para obter sucesso, é preciso muito planejamento prévio e que os estudiosos entendam, ao menos um pouco, de conteúdos ligados ao XML, à X-Query e à Base X.

Outros artigos publicados recentemente na Texto Livre contribuem para estudos de ferramentas computacionais para estudos linguísticos, como: Recursos online para a classificação sintático-semântica de verbos: teoria, métodos e aplicações (AMARAL, 2022), Do contato entre a Literatura, a Linguística de Corpus e o Processamento de Língua Natural (VITAL, 2022), Introdução à análise acústica da fala com o Praat (CANTONI, OLIVEIRA, NEVADO, 2022), Aplicação estendida de analisador computacional na extração de sintagmas nominais em textos antigos: um estudo de caso (CAMBRAIA, LEITE, 2022) e Parser sintático para o português brasileiro: desafios e soluções (PACHECO, GUARANHA, 2022), entre outros.

Referências

AMARAL, L.L. Recursos online para a classificação sintático-semântica de verbos: teoria, métodos e aplicações. Texto Livre [online]. 2022, vol. 15, no. 1, e38715 [viewed 12 July 2023]. DOI: https://doi.org/10.35699/1983-3652.2022.38715. Available from: https://periodicos.ufmg.br/index.php/textolivre/article/view/38715

CAMBRAIA, C.N. and LEITE, R.C.S. Aplicação estendida de analisador computacional na extração de sintagmas nominais em textos antigos: um estudo de caso. Texto Livre [online]. 2022, vol. 15, no. 1, e37557 [viewed 12 July 2023]. DOI: https://doi.org/10.35699/1983-3652.2022.37557. Available from: https://periodicos.ufmg.br/index.php/textolivre/article/view/37557.

CANTONI, M.M. et al. Introdução à análise acústica da fala com o Praat. Texto Livre [online]. 2022, vol. 15, no. 1, e37947 [viewed 12 July 2023]. DOI: https://doi.org/10.35699/1983-3652.2022.37947. Available from: https://periodicos.ufmg.br/index.php/textolivre/article/view/37947

PACHECO, W.E.A. and GUARANHA, M.F. Parser sintático para o português brasileiro: desafios e soluções. Texto Livre [online]. 2022, vol. 15, no. 1, e37569 [viewed 12 July 2023]. DOI: https://doi.org/10.35699/1983-3652.2022.37569. Available from: https://periodicos.ufmg.br/index.php/textolivre/article/view/37569

VITAL, A.S. Do contato entre a Literatura, a Linguística de Corpus e o Processamento de Língua Natural: o caso dos anagramáticos de Guimarães Rosa. Texto Livre [online]. 2022, vol. 15, no. 1, e39316 [viewed 12 July 2023]. DOI: https://doi.org/10.35699/1983-3652.2022.39316. Available from: https://periodicos.ufmg.br/index.php/textolivre/article/view/39316

Para ler o artigo, acesse

SANTOS JUNIOR, J.L.N. Desenvolvimento de ferramentas computacionais para o processamento de dados dialetais e lexicográficos. Texto livre [online]. 2023, vol. 16, no. 1, e42302 [viewed 12 July 2023]. DOI: https://doi.org/10.1590/1983-3652.2023.42302. Available from: https://www.scielo.br/j/tl/a/LLQkrC9BnvWSLR6zPKGJc3n/

Links externos

Perfis nas redes sociais da Texto Livre: Facebook | Twitter | Instagram

Bárbara Amaral da Silva – Lattes: http://lattes.cnpq.br/2889061686518053

Daniervelin Renata Marques Pereira – Lattes: http://lattes.cnpq.br/9783235143754513

Texto Livre: https://periodicos.ufmg.br/index.php/textolivre/

Texto Livre – TL: https://www.scielo.br/j/tl

Posts relacionados:

Como citar este post [ISO 690/2010]:

SILVA, B.A. and PEREIRA, D.R.M Desenvolvimento de ferramentas computacionais auxilia processamento de dados dialetais e lexicográficos [online]. SciELO em Perspectiva: Humanas, 2023 [viewed ]. Available from: https://humanas.blog.scielo.org/blog/2023/07/12/desenvolvimento-de-ferramentas-computacionais-auxilia-processamento-de-dados-dialetais-e-lexicograficos/