

MINICURSO 7
Link do formulário de inscrição AQUI
1. Título: Análise de Conteúdo Automatizada: modelagem de tópicos e análise multivariada de dados textuais (Carga horária 8 horas)
2. Proponente: Valnides Araujo Costa e Luís Fernando Oliveira do Nascimento
3. Titulação e vínculo institucional: Professor efetivo da Universidade do Estado de Minas Gerais (UEMG), no Departamento de Ciências Humanas da Unidade de Barbacena. Licenciando em Ciências Sociais pela Universidade do Estado de Minas Gerais. Realiza pesquisas no Tuguna Digital Lab – Laboratório Experimental em Humanidade Digitais.
4. Quantidade de vagas: 40
5. Ementa: O texto como dado (Text as Data). Mineração de textos em Redes Sociais Online. O YouTube como fonte de dados para o historiador. Ferramentas computacionais para o Processamento de Linguagem Natural (NLP). Pacotes da Linguagem R para análise de textos. O modelo Latent Dirichlet Allocation (LDA). Análise de Sentimentos e Emoções. Análise Multivariada de dados textuais via Modelagem de Tópicos e Análise de Correspondências Múltiplas (MCA) e Análise de Regressão Logística e Análise de Redes Sociais para Texto.
6. Desenvolvimento: O minicurso terá uma abordagem prática em que se demonstrará o funcionamento de ferramentas para mineração de texto em redes sociais online e dos algoritmos, pacotes e scripts da Linguagem R para a Modelagem de Tópicos e Análise Multivariada de Dados Textuais. O proponente disponibilizará os projetos e scripts da Linguagem R para os participantes seguirem os procedimentos de análise propostos. Assim, todos os participantes irão fazendo as análises de forma simultânea junto com o professor. Assim, participante deve instalar o R e o RStudio em seu computador. Link para o R: https://cran.rstudio.com/bin/windows/base/R-4.4.2-win.exe. Link para o RStudio: https://download1.rstudio.org/electron/windows/RStudio-2024.12.0-467.exe. Propõe-se a seguinte organização:
-
1º dia: Abordagem teórica sobre o texto como dado (Text as Data), o YouTube como fonte de dados para o historiador. Implementação de recursos para Mineração de textos em Redes Sociais Online e introdução ao uso prático de ferramentas computacionais para o Processamento de Linguagem Natural (NLP), exclusivamente aos pacotes da Linguagem R para análise de texto e a construção de um corpus textual de trabalho prático para o segundo dia.
Data 19 de maio de 2025
Horário: 8h às 10h
-
2° dia (8h às 10h): Desenvolver a aplicação de algoritmos via linguagem R para a realização do modelo Latent Dirichlet Allocation (LDA), a análise de sentimentos e emoções e a análise multivariada de dados textuais via Modelagem de Tópicos e Análise de Correspondências Múltiplas (MCA) e visualização espacial dos resultados.
Data 20 de maio de 2025
Horário: 8h às 10h
-
3º dia (8h às 10h): Análise de Regressão Logística com dados textuais.
Data 21 de maio de 2025
Horário: 8h às 10h
-
4º dia (8h às 10h): Análise de Redes Sociais para Texto
Data 22 de maio de 2025
Horário: 8h às 10h
6.1 Atividade prática e Avaliação: O minicurso terá uma natureza prática minicurso e assim, o processo de avaliação será contínuo e simultâneo a partir da interação dos participantes com o professor proponente e do acompanhamento síncrono da execução dos scripts da Linguagem R.
7. Objetivos: Ao final do minicurso o participante será capaz de:
-
Minerar dados de redes sociais online, especificamente no YouTube;
-
Utilizar a Linguagem R para a Análise de textos;
-
Aplicar técnicas de mineração de dados em redes sociais, de Modelagem de Tópicos e de Análise Multivariada de Dados Textuais e de Redes Sociais.
8. Diálogo: O minicurso está dentro do escopo das três áreas que mais se destacam no contexto das práticas digitais em ensino e pesquisa em Humanidades: i) Processamento de Linguagem Natural (NLP); ii) Ciência Social Computacional (CSS), e; iii) das Humanidades Digitais. E se propõe a trabalhar com um tipo primordial de fonte e dados de pesquisa no contexto digital: as redes sociais online e o Texto como Dado. Assim, há um diálogo direto entre a proposta do minicurso e do III CONGRESSO INTERNACIONAL DE HUMANIDADES DIGITAIS, CULTURA E ENSINO & IV SIMPÓSIO NACIONAL EM MÍDIAS, TECNOLOGIAS E HISTÓRIA.
Referências
BÉCUE-BERTAUT, Mónica. Textual Data Science with R. New York: CRC Press, 2018.
BOTTON, Alain. Notícias: manual do usuário. Rio de Janeiro: Intrínseca, 2015.
BRUNSDON, Chris; COMBER, Lex. R for spatial analysis & mapping. London: SAGE, 2019.
BURGESS, Jean; GREEN, Joshua. YouTube e a revolução digital: como o maior fenômeno da cultura participativa transformou a mídia e a sociedade. São Paulo: Aleph, 2009.
CARVALHO, Helena. Análise multivariada de dados qualitativos utilização da análise de correspondências múltiplas com o SPSS. Lisboa: Silabo, 2017.
CHEN, Shu-Heng. Big data in computational social science and humanities. London: Springer, 2018.
CHEN, Shu-Heng; TERANO, Takao; YAMAMOTO, Ryuichi; TAI, Chung-Ching. Advances in computational social science: the fourth world congress. London: Springer, 2014.
CIOFFI-REVILLA, Claudio. Introduction to computational social science: principles and applications. London: Springer, 2017.
COULDRY, Nick; HEPP, Andreas. A construção mediada da realidade. São Leopoldo: Unisinos, 2020.
DAHLGREN, Peter. The internet, public spheres, and political communication: dispersion and deliberation. Political Communication, Londres, v. 22, n. 2, p. 147-162, abr. 2005.
DÖVELING, Katrin; HARJU, Anu A.; SOMMER, Denise. From mediatized emotion to digital affect cultures: new technologies and global flows of emotion. Social Media + Society, London, v. 4, n. 1, p. 1-11, jan. 2018.
ENGEL, Uwe; QUAN-HAASE, Anabel; LIU, Sunny Xun; LYBERG, Lars. Handbook of computational social science: theory, case studies and ethics. New York: Routledge, 2022.
ENGEL, Uwe; QUAN-HAASE, Anabel; LIU, Sunny Xun; LYBERG, Lars. Handbook of computational social science: data science, statistical modelling, and machine learning methods. New York: Routledge, 2022.
FÁVERO, Luiz Paulo; BELFIORE, Patrícia. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier, 2017.
FISCHER, Sebastian. Moralische spiele auf youtube: die darstellung ethischer computerspiele im let’s play und ihre diskussion in den userkommentaren. Wiesbaden: Springer, 2021.
FISHER, Max. Como o YouTube impulsionou a extrema direita e elegeu Bolsonaro. O Estadão. São Paulo, p. 1-1. 25 ago. 2019.
GENTZKOW, Matthew; KELLY, Bryan; TADDY, Matt. Text as data. Journal of Economic Literature, Washington, v. 57, n. 3, p. 535-574, 1 set. 2019.
GREENACRE, Michael. Correspondence analysis in practice. New York: CRC Press, 2021.
GRIMMER, Justin; ROBERTS, Margaret E.; STEWART, Brandon M. Text as data: a new framework for machine learning and the social sciences; Princeton: Princeton University Press, 2022.
HAIR, Joseph F.; BLACK, William C.; BABIN, Barry J.; ANDERSON, Rolph E.; TATHAM, Ronald L. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.
HAN, Byung-Chul. Infocracia: digitalização e a crise da democracia. Petrópolis, RJ: Vozes, 2022.
HAN, Byung-Chul. No enxame: perspectivas do digital. Petrópolis, RJ: Vozes, 2018b.
HAN, Byung-Chul. Psicopolítica: o neoliberalismo e as novas técnicas de poder. Belo Horizonte: Âyné, 2018a.
HJELLBREKKE, Johs. Multiple correspondence analysis for the social sciences. London, Routledge: 2018.
HVITFELDT, Emil; SILGE, Julia. Supervised machine learning for text analysis in R. New York: CRC Press, 2022.
KUMAR, Ashish; PAUL, Avinash. Mastering text mining with R: master text-taming techniques and build effective text-processing applications with R. Birmingham, UK: Packt Publishing, 2016.
LIU, Bing. Sentiment analysis: mining opinions, sentiments, and emotions. New York: Cambridge University Press, 2015.
MOHAMMAD, Saif M. NRC Word-Emotion Association Lexicon, 2010. Disponível em: https://saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm. Acesso em: 25 maio 2020.
O'NEIL, Cathy. Algoritmos de destruição em massa: como o big data aumenta a desigualdade e ameaça a democracia. Santo André, SP: Editora Rua do Sabão, 2021.
PORIA, Soujanya; HUSSAIN, Amir; CAMBRIA, Erik. Multimodal sentiment analysis. London: Springer, 2018.
RIEDER, Bernhard. YouTube Data Tools (Version 1.23), 2015. Disponível em: https://tools.digitalmethods.net/netvizz/YouTube/.
RIEDER, Bernhard. YouTube Transcript Scraper, 2018. Disponível em: https://github.com/bernorieder/youtube-transcript-scraper.
SALGANIK, Matthew J. Bit by bit: social research in the digital age. Princeton: Princeton University Press, 2019.
SCHMULLER, Joseph. Análise estatística com R para leigos. Rio de Janeiro: Alta Books, 2019.
SILGE, Julia; ROBINSON, David. Text mining with R. London: O'Reilly Media, 2017.
SILVA, Rodrigo Oliveira. Um mapa da <<direita>> no YouTube do Brasil através dos métodos digitais. 2018. 185 f. Dissertação (Mestrado) - Curso de Ciências da Comunicação – Cultura Contemporânea e Novas Tecnologias, Faculdade de Ciências Humanas e Sociais, Universidade Nova de Lisboa, Lisboa, 2018.
WALTER, Stefanie. EU citizens in the european public sphere: an analysis of EU news in 27 EU member states. London: Springer, 2017.
WRYCZA, Stanisław; MAśLANKOWSKI, Jacek. Social Media Users’ Opinions on Remote Work during the COVID-19 Pandemic. Thematic and Sentiment Analysis. Information Systems Management, London, v. 37, n. 4, p. 288-297, 24 set. 2020.