top of page
  • X
  • Whatsapp
  • Facebook ícone social
  • YouTube ícone social
  • Instagram

Clique para acessar o formulário de inscrição 

Minicurso 1

Do PDF ao Modelo Analítico: Extração, Organização, Modelagem de Tópicos e Análise Multivariada de Dados Textuais

 

Proponentes

 

Valnides Araujo Costa

Mestre em Serviço Social (2012) pela Pontifícia Universidade Católica de Goiás (PUC Goiás), Especialista em Data Science e Analytics (2022) e em Gestão de Projetos (2017) pela Universidade de São Paulo (USP) e Licenciado em História (2009) pela Universidade Estadual de Goiás (UEG). Atualmente é Professor efetivo da Universidade do Estado de Minas Gerais (UEMG), no Departamento de Ciências Humanas da Unidade de Barbacena, onde coordena o Tuguna Digital Lab – Laboratório Experimental em Humanidade Digitais.

 

Luís Fernando Oliveira do Nascimento

Mestrando e pesquisador bolsista CAPES no Programa de Pós-Graduação em Desenvolvimento, Planejamento e Território (PGDPlaT) da Universidade Federal de São João Del Rei (UFSJ). Licenciado em Ciências Sociais pela Universidade do Estado de Minas Gerais (UEMG). E-mail: luis.sociologia@tuguna.pro.br.

 

Odorico Guilherme Veloso da Silva

Técnico em Tecnologia da Informação do Instituto Federal no Norte de Minas Gerais, campus Diamantina. Mestrando em Educação pela Universidade Federal dos Vales do Jequitinhonha e Mucuri. E-mail: odorico.veloso@ufvjm.edu.br

 

Quantidade de vagas: 20 vagas

 

Ementa: O texto como dado (Text as Data). Documentos digitais como fonte de pesquisa em Humanidades Digitais. Arquivos em formato PDF como corpus textual: documentos born-digital e documentos escaneados. Técnicas de extração de texto em PDF, incluindo OCR. Organização, limpeza e estruturação de datasets textuais para análise computacional. Processamento de Linguagem Natural (NLP) aplicado a documentos institucionais e históricos. Pacotes da Linguagem R para análise de textos. Modelagem de Tópicos por meio do modelo Latent Dirichlet Allocation (LDA). Análise de Sentimentos e Emoções. Análise Multivariada de Dados Textuais via Modelagem de Tópicos, Análise de Correspondências Múltiplas (MCA) e Análise de Regressão Logística, considerando variáveis temporais, institucionais e contextuais.

 

Público-alvo

Público em geral, especialmente estudantes, pesquisadores e docentes das áreas de Humanidades, Ciências Sociais, História, Comunicação, Ciência de Dados e áreas afins.

 

Metodologia

O minicurso terá uma abordagem teórico-prática, organizada a partir de um pipeline completo de análise textual, contemplando todas as etapas da pesquisa computacional com documentos em PDF:

  1. extração do texto bruto;

  2. organização e estruturação do dataset;

  3. processamento e análise estatística dos dados textuais.

Serão utilizados scripts e pacotes da Linguagem R, que serão disponibilizados aos participantes. As atividades serão conduzidas de forma síncrona, com acompanhamento passo a passo da execução dos procedimentos analíticos. Recomenda-se que os participantes instalem previamente o R e o RStudio.

Links:
R: https://cran.rstudio.com/bin/windows/base/R-4.5.2-win.exe

RStudio: https://download1.rstudio.org/electron/windows/RStudio-2026.01.0-392.exe

 

Atividade prática e avaliação

O minicurso possui natureza essencialmente prática. A avaliação será processual e contínua, baseada no acompanhamento da execução dos scripts, na interação com os proponentes e na capacidade dos participantes de estruturar e analisar um dataset textual a partir de documentos em PDF.

 

Desenvolvimento do minicurso

  • Plataforma: Google Meet

  • Duração: 3 dias

  • Carga horária: 6 horas

  • Datas e horários: 25, 26 e 27 de maio, das 19h às 21h

 

Programação detalhada do minicurso

1º dia (19h às 21h)

Texto como Dado, Extração e Organização de Dados Textuais em PDF

  • Introdução ao paradigma Text as Data nas Humanidades Digitais

  • Documentos digitais e institucionais como fontes de dados textuais

  • Tipos de arquivos PDF:

    • PDFs born-digital (texto selecionável)

    • PDFs escaneados (imagem – necessidade de OCR)

  • Ferramentas e pacotes da Linguagem R para extração de texto em PDF

  • Definição da unidade de análise (documento, parágrafo, seção)

  • Introdução à lógica de organização do corpus documental

  • Estruturação do dataset textual (texto + metadados)

  • Limpeza, normalização e pré-processamento inicial dos textos

  • Preparação do corpus para modelagem estatística e análise automatizada

 

2º dia (19h às 21h)

Modelagem de Tópicos, Sentimentos e Emoções

  • Introdução à Modelagem de Tópicos

  • Aplicação do modelo Latent Dirichlet Allocation (LDA)

  • Interpretação e validação dos tópicos

  • Análise de sentimentos e emoções em documentos textuais

  • Visualização e interpretação dos resultados

 

3º dia (19h às 21h)

Análise Multivariada e Regressão Aplicadas a Dados Textuais

  • Análise de Correspondências Múltiplas (MCA) para dados textuais

  • Integração entre LDA e MCA

  • Introdução à Análise de Regressão Logística aplicada a textos

  • Exemplos de modelos com variáveis temporais e institucionais

  • Discussão metodológica: limites, potencialidades e boas práticas

 

Objetivos do minicurso

Ao final do minicurso, o participante será capaz de:

  • Extrair textos de documentos em formato PDF, incluindo arquivos escaneados;

  • Organizar e estruturar datasets textuais para análise computacional;

  • Utilizar a Linguagem R para processamento e análise de textos;

  • Aplicar técnicas de Modelagem de Tópicos, Análise de Sentimentos e Emoções;

  • Realizar análises multivariadas e modelos de regressão com dados textuais.

 

Diálogo com o evento

O minicurso dialoga diretamente com os eixos centrais do evento ao articular Humanidades Digitais, Processamento de Linguagem Natural (NLP) e Ciência Social Computacional, com foco em uma fonte fundamental da pesquisa contemporânea: documentos digitais em formato PDF. A proposta cobre integralmente o percurso metodológico da pesquisa com Text as Data, da extração do conteúdo à análise estatística e interpretativa.

 

Referências

BÉCUE-BERTAUT, Mónica. Textual Data Science with R. New York: CRC Press, 2018.

BRUNSDON, Chris; COMBER, Lex. R for spatial analysis & mapping. London: SAGE, 2019.

CHEN, Shu-Heng. Big data in computational social science and humanities. London: Springer, 2018.

CHEN, Shu-Heng; TERANO, Takao; YAMAMOTO, Ryuichi; TAI, Chung-Ching. Advances in computational social science: the fourth world congress. London: Springer, 2014.

CIOFFI-REVILLA, Claudio. Introduction to computational social science: principles and applications. London: Springer, 2017.

DAHLGREN, Peter. The internet, public spheres, and political communication: dispersion and deliberation. Political Communication, Londres, v. 22, n. 2, p. 147-162, abr. 2005.

DÖVELING, Katrin; HARJU, Anu A.; SOMMER, Denise. From mediatized emotion to digital affect cultures: new technologies and global flows of emotion. Social Media + Society, London, v. 4, n. 1, p. 1-11, jan. 2018.

ENGEL, Uwe; QUAN-HAASE, Anabel; LIU, Sunny Xun; LYBERG, Lars. Handbook of computational social science: theory, case studies and ethics. New York: Routledge, 2022.

ENGEL, Uwe; QUAN-HAASE, Anabel; LIU, Sunny Xun; LYBERG, Lars. Handbook of computational social science: data science, statistical modelling, and machine learning methods. New York: Routledge, 2022.

FÁVERO, Luiz Paulo; BELFIORE, Patrícia. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier, 2017.

GENTZKOW, Matthew; KELLY, Bryan; TADDY, Matt. Text as data. Journal of Economic Literature, Washington, v. 57, n. 3, p. 535-574, 1 set. 2019.

GRIMMER, Justin; ROBERTS, Margaret E.; STEWART, Brandon M. Text as data: a new framework for machine learning and the social sciences; Princeton: Princeton University Press, 2022.

HAIR, Joseph F.; BLACK, William C.; BABIN, Barry J.; ANDERSON, Rolph E.; TATHAM, Ronald L. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.

HAN, Byung-Chul. Infocracia: digitalização e a crise da democracia.  Petrópolis, RJ: Vozes, 2022.

HVITFELDT, Emil; SILGE, Julia. Supervised machine learning for text analysis in R. New York: CRC Press, 2022.

KUMAR, Ashish; PAUL, Avinash. Mastering text mining with R: master text-taming techniques and build effective text-processing applications with R. Birmingham, UK: Packt Publishing, 2016.

LIU, Bing. Sentiment analysis: mining opinions, sentiments, and emotions. New York: Cambridge University Press, 2015.

MOHAMMAD, Saif M. NRC Word-Emotion Association Lexicon, 2010. Disponível em: https://saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm. Acesso em: 25 maio 2020.

PORIA, Soujanya; HUSSAIN, Amir; CAMBRIA, Erik. Multimodal sentiment analysis. London: Springer, 2018.

SCHMULLER, Joseph. Análise estatística com R para leigos. Rio de Janeiro: Alta Books, 2019.

SILGE, Julia; ROBINSON, David. Text mining with R. London: O'Reilly Media, 2017.

© Copyright

© 2026 by 4th CIHDCE & 5th SNMTH. Proudly created with Wix.com

bottom of page