Uma análise computacional do conteúdo do jornal O Globo nestas eleições presidenciais

Eu vivo falando que os grandes grupos de mídia no Brasil são parciais e defendem o quanto podem os governos de direita, historicamente mais favoráveis aos seus interesses elitistas. Neste sentido eu concordo com diversos outros blogueiros, entre eles Idelber, Nassif, e Miguel do Rosário. Concordo também com o jornalista Mário Prata quando diz que “a imprensa brasileira está podre. Os grandes jornais, as coisas que são consideradas grande imprensa no Brasil como Folha de S. Paulo, Globo, Estadão, Jornal Nacional, Veja, para mim são piadas.”

Pois bem, decidi que precisava testar de maneira computacional estas afirmações. Estes testes, basicamente análises textuais, são uma idéia antiga minha mas que nunca pude colocar em prática por pura falta de tempo. Foram os últimos abusos da imprensa que me motivaram a retomar a idéia e colocá-la em prática.

O que segue é uma análise de palavras vizinhas dentro do conteúdo do jornal O Globo. Uma palavra é definida como vizinha de outra quando as duas ocorrem próximas uma da outra. Por exemplo, na frase “Ao vencido, ódio ou compaixão; ao vencedor, as batatas.”, as palavras vizinhas de “vencedor” são “compaixão”, “ao”, “as” e “batatas”. Isto quando consideramos apenas 2 vizinhas antes e 2 depois.

Assim, o que fiz foi analisar as palavras vizinhas de “dilma” e “serra” nos 100 primeiros documentos retornados em uma busca no Yahoo por estes dois termos (os nomes dos candidatos) individualmente e, depois, em conjunto. Ou seja, obtive 300 documentos: 100 documentos para os resultados da busca por “dilma”, outros 100 para os resultados da busca por “serra” e mais 100 para busca “dilma serra”.

Para cada documento encontrado, eu processei as 8 palavras vizinhas de cada ocorrência de “dilma” e “serra”, antes e depois delas. Ou seja, 16 palavras vizinhas para cada ocorrência em cada documento. Artigos, números, dentre outras palavras que não contribuem para a análise (o termo técnico para elas é “stop words”) foram removidas da lista. No final deste post você pode ver a lista completa de palavras removidas. Após esta remoção, sobraram 2645 palavras vizinhas de “serra” e 2772 vizinhas de “dilma” n’O Globo.

Estas palavras vizinhas foram então contadas para que eu pudesse medir a frequência de cada uma. Também calculei a distância média da palavra vizinha atribuindo um peso que varia de 8 (para a palavra vizinha que ocorre imediatamente antes ou depois de “serra” ou “dilma”) a 1 (para a palavra vizinha que está separada de “dilma” ou “serra” por outras 7 palavras antes ou depois). Em outras palavras, quanto mais perto de 8 o peso estiver, mais vezes a palavra vizinha ocorre próxima de “dilma” ou “serra”.

Resultados

As 20 palavras vizinhas de “serra” mais frequentes são:

Palavra Vizinha Peso N. Ocorrências
josé 8 103
não 4.41429 70
psdb 5.24638 69
alckmin 3.44068 59
se 3.96154 52
disse 6.625 48
frente 7.6087 46
pontos 3.97778 45
kassab 3.22222 45
dilma 1.2564 42
governo 2.7561 41
serra 1.46154 39
mais 3.26471 34
candidato 3.12903 31
pesquisa 4.16129 31
governador 4.53333 30
lula 3.8 30
2010 4.33333 30
foi 4.68966 29
são 3.2963 27

Dentre as 5 primeiras, destaque para a palavra “não”, que ocorre 70 vezes. Mais para baixo, repare que “dilma” e “lula” ocorrem com certa frequência próximas da palavra “serra”. Dentre as demais palavras, nada de muito especial. Quase todas estão relacionadas ao partido ou à pessoas próximas do candidato. Note porém que a palavra “fhc” não está nesta lista.

Agora veja as 20 palavras vizinhas de “dilma” mais frequentes:

Palavra Vizinha Peso N. Ocorrências
rousseff 7.90714 140
lula 3.60417 96
não 3.65591 93
ministra 6.85526 76
se 3.2459 61
dilma 1.55556 54
diz 6.98113 53
governo 2.96154 52
disse 6.41176 51
civil 7.58 50
foi 4.4375 48
enquete 7.77273 44
mais 2.47222 36
campanha 5.125 32
tem 3.25806 31
presidente 2.54839 31
pt 2.96429 28
candidata 3.88462 26
candidatura 5.65385 26
ser 3.28 25

A primeira coisa que salta aos olhos é que a palavra “lula” é mencionada 96 vezes mas não ocorre tão próxima assim de “dilma”. O peso de “lula” com “serra” é maior do que com “dilma”. Outro destaque é a quantidade de vezes 37% maior com que a palavra “não” é mencionada perto de “dilma”. Mais, a palavra “pt” como vizinha de “dilma”, ao contrário, ocorre muito menos que a palavra “psdb” como vizinha de “serra”. As demais palavras, como no caso de “serra”, ocorrem dentro do que eu esperava.

Outro ponto para análise é verificar quais palavras são vizinhas de “serra” mas não de “dilma” e vice-versa. Veja primeiro a lista das palavras mais frequentes vizinhas apenas de “serra”:

Palavra Vizinha Peso N. Ocorrências
josé 8 103
alckmin 3.44068 59
kassab 3.22222 45
candidato 3.12903 31
governador 4.53333 30
depender 8 25
aécio 5.63636 22
critica 6.64706 17
erra 2.21429 14
prefeito 4.75 12
anuncia 8 11
próprio 5.11111 9
tucano 1.66667 9
secretários 1.77778 9
garante 8 8
gabeira 2.25 8
tucanos 1.375 8
datafolha 5.25 8
terá 5.66667 6
forma 3.5 6

A palavra “erra” é a única que poderia ser interpretada como negativa ao candidato. Quase todas as outras estão relacionadas ao trabalho do ex-governador, ao partido ou à pessoas ligadas a ele.

Já no caso de “dilma”, a lista é a seguinte:

Palavra Vizinha Peso N. Ocorrências
rousseff 7.90714 140
ministra 6.85526 76
pdt 2 13
lobao 4 12
apagão 3 10
defende 7.2 10
mulheres 2.66667 9
roussef 8 9
deixa 7 8
regulatório 2.625 8
conversado 3.75 8
hospital 3.5 8
cabral 2.25 8
continuidade 3.5 8
companheira 8 7
duvido 6 7
tentar 3.57143 7
deixa 8 7
collor 2.33333 6
quimioterapia 5.83333 6

Reparem a quantidade maior de palavras que podem ser interpretadas de maneira negativa à candidata como ”apagão”, ”duvido” e ”collor”. Reparem também as palavras associadas à saúde da candidata. Muito menos palavras podem ser associadas positivamente a ela.

Conclusão

Acho que é cedo para fazer qualquer tipo de afirmação. Primeiro, a freqüência das palavras podem estar fora de contexto é só a sua quantidade próxima de uma palavra não pode necessariamente significar mais ou menos crítica a esta palavra. Segundo, os 300 documentos analisados são aqueles mais populares numa busca do Yahoo. Não representam, portanto, uma amostragem estatística de todos os documentos do jornal. Terceiro, as tabelas analisam apenas as 20 palavras vizinhas mais freqüentes. Elas não representam, portanto, uma amostragem estatística de todas as palavras vizinhas processadas.

Mesmo assim, os resultados podem servir como indicativo de diferença de tratamento entre uma palavra, “serra”, e outra, “dilma”. Há claramente diferenças nos textos analisados entre as palavras vizinhas a dos candidatos. Por isto, os próximos passos seriam dois. Primeiro, analisar uma quantidade maior de documentos deste jornal e de outros. Folha e Estadão também deve servir como ótimos exemplos. Segundo, uma análise do sentimento do conteúdo (sim, existe algoritmo para isto) pode revelar o contexto e ajudar a determinar se as palavras vizinhas são mais ou menos críticas a cada candidato.

Infelizmente, tudo isto toma um bocado de tempo e não sei se dará para continuar antes das eleições. Uma grande ajuda seria ter acesso a uma base de dados maior de cada jornal. Alguém aí poderia me fornecer estes dados?

Posts Relacionados:

Category: Política 5 comments »

5 Responses to “Uma análise computacional do conteúdo do jornal O Globo nestas eleições presidenciais”

  1. Thaissa Vieira

    Ricardo,
    Sou fã incondicional de seus textos!!! encontrei seu irmao esses dias e falei isso para ele: sua capacidade de colocar em palavras aquilo que voce pensa é brilhante!
    Continue compartilhando seus pensamentos!

    abraços,

    Thaíssa

  2. Marcel

    Vou mandar seu texto para o Marcelo Taz… quem sabe ele publica algum dos seus resultados… agora estou descobrindo de onde saem essas estatísticas Malucas que o mundo solta por ai… tinha que ser de algum doido que fica enclausurado em cidades frias na Europa… hehehehe

    Boa a pesquisa.

    Abraços

  3. Fabrício Vargas Matos

    Muito bom. Esse é um dos lados positivos de estar na academia. Lá temos uma infinidade de coisas pra pesquisar, mas ainda assim conseguimos tirar tempo para inventar moda :-)

    Mas pensando bem, acho que a questão não é só o ter tempo para fazer isso ou aquilo, mas o estar constantemente investigando, questionando, enfim, pensando. Nos mestrados e doutorados da vida respiramos isso 24×7, mas acredito que o pesquisador seja um desbravador, alguém constantemente insatisfeito, sempre encontrando formas de explorar os novos mundos do conhecimento humano, independente de estar na academia ou não.

    Grande abraço.

  4. Janaína

    Conheci seu blog através do seu irmão. Ficam aqui os parabéns para você pelo blog.
    Quanto a sua pesquisa, seguem alguns links que lhe podem ser interessantes:
    Embora todo mundo saiba disso há muito tempo já, o Estadão é pró-PSDB. No
    armário, mas é. Agora, resolveu assumir:
    http://veja.abril.com.br/blog/ricardo-setti/politica-cia/%E2%80%9Cestadao%E2%80%9D-declara-amanha-apoio-a-serra/

    A Carta Capital, por sua vez, apóia, declaradamente, a Dilma:
    http://www.cartacapital.com.br/politica/por-que-apoiamos-dilma

    Acho essa uma postura muito honesta. Acredito que se um jornal/revista não
    quer ser imparcial, que o diga. Por isso que a Veja ( quetodo mundo também
    sabe muito bem de sua opinião) acabou por perder a credibilidade como
    imprensa. Nesse sentido:
    http://www.rodrigovianna.com.br/radar-da-midia/pesquisa-da-puc-veja-se-transformou-no-maior-fenomeno-de-anti-jornalismo.html

    Espero ter contribuído.

  5. Ricardo

    Obrigado pela visita e pelo comentário, Janaína.

    Tinha visto o editorial do Estadão e gostei da iniciativa, embora bastante tardia. A Carta Capital, que você bem mencionou, já tinha feito o mesmo em Julho!

    Mas não conhecia esta pesquisa do último link que você citou. Parece ser um estudo bastante interessante e resultado de um trabalho que deve ter sido bastante minucioso. Obrigado pela dica! ;)

    Abraços,
    Ricardo


Leave a Reply



Back to top