MINICURSO 8 - Mineração, Modelagem de Tópicos e Análise Multivariada de Dados Textuais do YouTube
Formulário de inscrição em minicurso. CLIQUE AQUI
Nome do proponente: Valnides Araujo Costa e Luís Fernando Oliveira do Nascimento
Titulação, vínculo institucional e Mini Bio do proponente
Valnides Araujo Costa: Mestre em Serviço Social (2012) pela Pontifícia Universidade Católica de Goiás (PUC Goiás), Especialista em Data Science e Analytics (2022) e em Gestão de Projetos (2017) pela Universidade de São Paulo (USP) e Licenciado em História (2009) pela Universidade Estadual de Goiás (UEG). Atualmente é Professor efetivo da Universidade do Estado de Minas Gerais (UEMG), no Departamento de Ciências Humanas da Unidade de Barbacena, onde coordena o Tuguna Digital Lab – Laboratório Experimental em Humanidade Digitais.
Luís Fernando Oliveira do Nascimento: Licenciando em Ciências Sociais pela Universidade do Estado de Minas Gerais. Realiza pesquisas no Tuguna Digital Lab – Laboratório Experimental em Humanidade Digitais.
Quantidade de vagas ofertadas: 40 vagas
Ementa
O texto como dado (Text as Data). Mineração de textos em Redes Sociais Online. O YouTube como fonte de dados para o historiador. Ferramentas computacionais para o Processamento de Linguagem Natural (NLP). Pacotes da Linguagem R para análise de textos. O modelo Latent Dirichlet Allocation (LDA). Análise de Sentimentos e Emoções. Análise Multivariada de dados textuais via Modelagem de Tópicos e Análise de Correspondências Múltiplas (MCA) e Análise de Regressão Logística, considerando, inclusive, variáveis espaciais.
Público-Alvo: Público em geral
Metodologia: O minicurso terá uma abordagem prática em que se demonstrará o funcionamento de ferramentas para mineração de texto em redes sociais online e dos algoritmos, pacotes e scripts da Linguagem R para a Modelagem de Tópicos e Análise Multivariada de Dados Textuais. O proponente disponibilizará os projetos e scripts da Linguagem R para os participantes seguirem os procedimentos de análise propostos. Assim, todos os participantes irão fazendo as análises de forma simultânea junto com o professor. Assim, participante deve instalar o R e o RStudio em seu computador. Link para o R: https://cran.r-project.org/bin/windows/base/R-4.2.2-win.exe. Link para o RStudio: https://download1.rstudio.org/desktop/windows/RStudio-2022.07.2-576.exe.
Atividade prática e Avaliação: O minicurso terá uma natureza prática minicurso e assim, o processo de avaliação será contínuo e simultâneo a partir da interação dos participantes com o professor proponente e do acompanhamento síncrono da execução dos scripts da Linguagem R.
Desenvolvimento do minicurso
Plataforma utilizada: Google Meet
Quantidade de Dias: 4 dias
Dias e horário das Sessões: 6, 7, 8 e 9 de maio, das 8h às 10h
Atividades desenvolvidas nos dias de oferta do minicurso
1º dia (8h às 10h): Abordagem teórica sobre o texto como dado (Text as Data), o YouTube como fonte de dados para o historiador. E a implementação de recursos para Mineração de textos em Redes Sociais Online e introdução ao uso prático de ferramentas computacionais para o Processamento de Linguagem Natural (NLP), exclusivamente aos pacotes da Linguagem R para análise de texto e a construção de um corpus textual de trabalho prático para o segundo dia.
2° dia (8h às 10h): Desenvolver a aplicação de algoritmos via linguagem para a realização do modelo Latent Dirichlet Allocation (LDA), a análise de sentimentos e emoções e a análise multivariada de dados textuais via Modelagem de Tópicos e Análise de Correspondências Múltiplas (MCA) e visualização espacial dos resultados.
3º e 4º dia (8h às 10h): Análise de Regressão Logística para dados textuais.
Objetivos dos minicurso
Ao final do minicurso o participante será capaz de:
-
Minerar dados de redes sociais online, especificamente no YouTube;
-
Utilizar a Linguagem R para a Análise de textos;
-
Aplicar técnicas de mineração de dados em redes sociais, de Modelagem de Tópicos e de Análise Multivariada de Dados Textuais.
Diálogo com o evento
O minicurso está dentro do escopo das três áreas que mais se destacam no contexto das práticas digitais em ensino e pesquisa em Humanidades: i) Processamento de Linguagem Natural (NLP); ii) Ciência Social Computacional (CSS), e; iii) das Humanidades Digitais. E se propõe a trabalhar com um tipo primordial de fonte e dados de pesquisa no contexto digital: as redes sociais online e o Texto como Dado. Assim, há um diálogo direto entre a proposta do minicurso e do II CONGRESSO INTERNACIONAL DE HUMANIDADES DIGITAIS, CULTURA E ENSINO & III SIMPÓSIO NACIONAL EM MÍDIAS, TECNOLOGIAS E HISTÓRIA.
Referências
BÉCUE-BERTAUT, Mónica. Textual Data Science with R. New York: CRC Press, 2018.
BOTTON, Alain. Notícias: manual do usuário. Rio de Janeiro: Intrínseca, 2015.
BRUNSDON, Chris; COMBER, Lex. R for spatial analysis & mapping. London: SAGE, 2019.
BURGESS, Jean; GREEN, Joshua. YouTube e a revolução digital: como o maior fenômeno da cultura participativa transformou a mídia e a sociedade. São Paulo: Aleph, 2009.
CARVALHO, Helena. Análise multivariada de dados qualitativos utilização da análise de correspondências múltiplas com o SPSS. Lisboa: Silabo, 2017.
CHEN, Shu-Heng. Big data in computational social science and humanities. London: Springer, 2018.
CHEN, Shu-Heng; TERANO, Takao; YAMAMOTO, Ryuichi; TAI, Chung-Ching. Advances in computational social science: the fourth world congress. London: Springer, 2014.
CIOFFI-REVILLA, Claudio. Introduction to computational social science: principles and applications. London: Springer, 2017.
COULDRY, Nick; HEPP, Andreas. A construção mediada da realidade. São Leopoldo: Unisinos, 2020.
DAHLGREN, Peter. The internet, public spheres, and political communication: dispersion and deliberation. Political Communication, Londres, v. 22, n. 2, p. 147-162, abr. 2005.
DÖVELING, Katrin; HARJU, Anu A.; SOMMER, Denise. From mediatized emotion to digital affect cultures: new technologies and global flows of emotion. Social Media + Society, London, v. 4, n. 1, p. 1-11, jan. 2018.
ENGEL, Uwe; QUAN-HAASE, Anabel; LIU, Sunny Xun; LYBERG, Lars. Handbook of computational social science: theory, case studies and ethics. New York: Routledge, 2022.
ENGEL, Uwe; QUAN-HAASE, Anabel; LIU, Sunny Xun; LYBERG, Lars. Handbook of computational social science: data science, statistical modelling, and machine learning methods. New York: Routledge, 2022.
FÁVERO, Luiz Paulo; BELFIORE, Patrícia. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Rio de Janeiro: Elsevier, 2017.
FISCHER, Sebastian. Moralische spiele auf youtube: die darstellung ethischer computerspiele im let’s play und ihre diskussion in den userkommentaren. Wiesbaden: Springer, 2021.
FISHER, Max. Como o YouTube impulsionou a extrema direita e elegeu Bolsonaro. O Estadão. São Paulo, p. 1-1. 25 ago. 2019.
GENTZKOW, Matthew; KELLY, Bryan; TADDY, Matt. Text as data. Journal of Economic Literature, Washington, v. 57, n. 3, p. 535-574, 1 set. 2019.
GREENACRE, Michael. Correspondence analysis in practice. New York: CRC Press, 2021.
GRIMMER, Justin; ROBERTS, Margaret E.; STEWART, Brandon M. Text as data: a new framework for machine learning and the social sciences; Princeton: Princeton University Press, 2022.
HAIR, Joseph F.; BLACK, William C.; BABIN, Barry J.; ANDERSON, Rolph E.; TATHAM, Ronald L. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.
HAN, Byung-Chul. Infocracia: digitalização e a crise da democracia. Petrópolis, RJ: Vozes, 2022.
HAN, Byung-Chul. No enxame: perspectivas do digital. Petrópolis, RJ: Vozes, 2018b.
HAN, Byung-Chul. Psicopolítica: o neoliberalismo e as novas técnicas de poder. Belo Horizonte: Âyné, 2018a.
HJELLBREKKE, Johs. Multiple correspondence analysis for the social sciences. London, Routledge: 2018.
HVITFELDT, Emil; SILGE, Julia. Supervised machine learning for text analysis in R. New York: CRC Press, 2022.
KUMAR, Ashish; PAUL, Avinash. Mastering text mining with R: master text-taming techniques and build effective text-processing applications with R. Birmingham, UK: Packt Publishing, 2016.
LIU, Bing. Sentiment analysis: mining opinions, sentiments, and emotions. New York: Cambridge University Press, 2015.
MOHAMMAD, Saif M. NRC Word-Emotion Association Lexicon, 2010. Disponível em: https://saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm. Acesso em: 25 maio 2020.
O'NEIL, Cathy. Algoritmos de destruição em massa: como o big data aumenta a desigualdade e ameaça a democracia. Santo André, SP: Editora Rua do Sabão, 2021.
PORIA, Soujanya; HUSSAIN, Amir; CAMBRIA, Erik. Multimodal sentiment analysis. London: Springer, 2018.
RIEDER, Bernhard. YouTube Data Tools (Version 1.23), 2015. Disponível em: https://tools.digitalmethods.net/netvizz/YouTube/.
RIEDER, Bernhard. YouTube Transcript Scraper, 2018. Disponível em: https://github.com/bernorieder/youtube-transcript-scraper.
SALGANIK, Matthew J. Bit by bit: social research in the digital age. Princeton: Princeton University Press, 2019.
SCHMULLER, Joseph. Análise estatística com R para leigos. Rio de Janeiro: Alta Books, 2019.
SILGE, Julia; ROBINSON, David. Text mining with R. London: O'Reilly Media, 2017.
SILVA, Rodrigo Oliveira. Um mapa da <<direita>> no YouTube do Brasil através dos métodos digitais. 2018. 185 f. Dissertação (Mestrado) - Curso de Ciências da Comunicação – Cultura Contemporânea e Novas Tecnologias, Faculdade de Ciências Humanas e Sociais, Universidade Nova de Lisboa, Lisboa, 2018.
WALTER, Stefanie. EU citizens in the european public sphere: an analysis of EU news in 27 EU member states. London: Springer, 2017.
WRYCZA, Stanisław; MAśLANKOWSKI, Jacek. Social Media Users’ Opinions on Remote Work during the COVID-19 Pandemic. Thematic and Sentiment Analysis. Information Systems Management, London, v. 37, n. 4, p. 288-297, 24 set. 2020.