Análise Textual: ‘Viado’ e ‘Bicha’ no Twitter

Desde que entrei na área da comunicação tenho voltado meus estudos da academia para a população LGBT e as suas esferas. Afinal, nada melhor que um LGBTs pra entender as pequenas pistas digitais deixadas por LGBTs. Uma das primeiras coisas que me chamou a atenção foi como as palavras que historicamente foram, e ainda são, usadas para agredir essa população acabaram sendo reapropriadas e usadas como tratamento afetivo.

Tentando iniciar uma discussão com essa pegada, usei o tutorial disponibilizado no livro “Introdução À Mineração de Dados – Com Aplicação Em R” sobre pré-processamento de dados do tipo texto para verificar, de forma bem simples, como são usados os termos ‘viado‘ e ‘bicha‘ no Twitter.

No livro a busca é contextualizada para restaurantes, aqui vou utilizar os termos ‘bicha’ e ‘viado’ seguindo de -rt, para evitar a aquisição de retweets e com uma data de inicio genérica.

Pronto. Você já tem o data frame com os dados do twitter. São muitos dados, incluindo: favoritações, se foi resposta, link para o tweet, data de criação, latitude, longitude e assim como outros dados que não utilizaremos nesse exemplo.

Durante o processo de concepção dessa análise verifiquei que devido a presença de emoticons/emojis nos tweets alguns processos posteriores apresentavam erros, sendo assim fui obrigado a encontrar uma solução para retirar esse emoticons junto com os retweets, que davam uma importância maior a tweets de usuários com um grau de influência maior na rede social.

Para os que entendem de R a fundo devem estar achando o código acima um sacrilégio, mas foi o que deu pra fazer com os meus conhecimentos atuais! 😀

Agora iremos partir, de fato, para a análise do texto:

O processo abaixo envolve remoção de radicais do texto, pontuação, números, acentos e radicais.

Um ponto importante é atentar ao dicionário utilizado como stopwords. Como a vasta maioria de linguagens e dicionários, eles foram desenvolvidos em inglês, sendo assim possuem um conjunto de palavras de maior quantidade e que facilitaram a análise nessa língua. O português também possui um dicionário mas de menor tamanho, o que piora a acuracidade da análise.

Um dos problemas apresentados nesse tutorial é que ele não me deixou plotar uma wordcloud quando a normalização está como TRUE. Não consegui descobrir o motivo e acabei usando como FALSE.

Os passos abaixo estão no apêndice do livro e mostram como gerar um wordcloud, ou nuvem de palavras, com o resultado dos termos pesquisados, com um frequência minima de 15 aparições no data frame.

Eu repeti o processo para o termo “bicha” exatamente igual ao termo “viado” para ter um padrão de comparação e o resultado obtido foram as essas duas nuvens abaixo:

 

Nuvem de palavras resultante das buscas por viado e bicha, respectivamente.

 

Compreendo que essa nuvem de palavras pode dar indícios para uma análise inicial e qualquer conclusão só deve ser feita quando amparada por uma série de metodologias que podem atuar numa tríplice de confirmação. Mas eu fiquei bem feliz ao ver o resultado – não vou negar que esperava algo mais pesado.

Na nuvem da palavra “viado” é perceptível que os ‘kkk’ ~ expressão de riso usada por brasileiros ~ está presente com mais ênfase. Algo muito semelhante acontece quando se refaz o mesmo experimento com a palavra ‘traveco’, o que naquele caso se configurou como transfobia vestida de humor, na maioria dos casos.

 

 

Um outro ponto que achei interessante é que por trabalhar com um banco de dados com apenas 1500 tweets há a possibilidade de algum evento, como uma novela, reality show ou um meme, enviesarem a análise. Percebi isso durante o teste que fiz na semana passada, data da final do masterchef, que devido várias questões, entre elas a presença de vários influenciadores que são gays, modificou o resultado.

 

Análise feita durante a final do Masterchef

 

Há várias questões que poderiam ser levantadas nessa análise, a partir de uma leitura dos tweets, como o uso de memes que possuem uma afinidade com a população LGBT.

 

 

Não entendeu a referência do tweet acima? Entra lá no museu de memes que tem um artigo explicando!

É interessante entender o uso de palavrões nos tweets e o sentido que eles adquirem. Quando se analisa palavras sem um contexto podemos incorrer numa interpretação enviesada pelas nossas vivências e o palavrão é um ótimo exemplo disso. Eu, Janderson, uso palavões em todas as conversas ~boca suja sim ~ e fatidicamente se fosse analisar o meu uso da palavra viado estaria muito ligado com um palavrão.

Quando se observa os usos é possível verificar que as palavras viado e bicha são usadas, quando verificados de forma manual os tweets, em três categorias, ou seja, como pronome de tratamento, interjeição ou vocativo. Abaixo está uma relação de tweets que mostram esses usos:

 

 

Que fique claro: minha intenção nesse post não é apontar usuários homofóbicos, uma vez que essa análise precisa ser amparada por um escopo maior de metodologias que corroborem tal afirmação. A estatística possui algumas técnicas podem auxiliar, como a análise de frequência de termos, associação entre termos, os dendrogramas, análise de cluster e muitas outras.

Se você ficou interessado por esse assunto, descobri um trabalho de conclusão de curso que perparssa essas técnicas e só ser acessado aqui e pra saber mais sobre extração de dados do twitter tem esse texto aqui.

 


Edit: É muito difícil apontar que tal usuário foi LGBTfóbico devido ao anonimato que as redes fornecem e as relações pessoais podem compor certas afeições, como chamar todos do seu grupo de amigos de ‘viados’, que tem significado totalmente diferente quando realizado por pessoas LGBTs.

Escrito por Janderson Toth

Meu nome é Janderson, tenho 24 anos e sou graduando em Estudos de Mídia/UFF. Vivo fazendo tutorias, me perco nos animes e meu super-herói favorito é o John Constantine. Escrevo para aprender a escrever(?) e para desenvolver meus estudos em análise de redes sociais e programação em R.