Pesquisar

tempo de leitura: 8 min salvar no browser

{ ARTIGO }

Análise de conteúdo de um corpus textual com uso de IA

Com ou sem auxílio de IA, vencem os candidatos que sabem traduzir os anseios da população naquele momento e que tem as características desejadas pelo eleitor, escreve Tulio Kahn

 

Tulio Kahn, sociólogo e colaborador do Espaço Democrático

Edição Scriptum

 

A justiça eleitoral obriga todos os candidatos aos cargos executivos a incluir, junto ao registro da candidatura, uma lista de propostas que pretendem executar, caso vençam as eleições. Estas propostas contemplam diversas áreas da administração municipal, como saúde, educação, segurança, habitação, cultura e assim por diante. Alguns meses antes das eleições os candidatos reúnem seus especialistas e colaboradores, organizam reuniões e reúnem as melhores ideias e princípios numa espécie de eventual plano de governo, de qualidade heterógena, dada a escassez de tempo e recursos.

Nas eleições municipais passadas o TSE registrou mais de 17 mil propostas de candidatos a prefeito, uma média de 3 para cada cidade brasileira. No Estado de São Paulo foram cerca de 2.300 propostas, algo em torno de 3,5 por cidade.

Dado o volume de propostas, é difícil analisar o conteúdo em detalhe, de modo a resumir de que tratam e como tratam cada um dos diversos temas da gestão municipal, mesmo utilizando ferramentas de QDA ou Análise Automática de Discurso. Recentemente, porém, ferramentas de LLM (Large Linguage Models) como o ChatGPT facilitaram sobremaneira esta tarefa. Estas ferramentas conseguem resumir, extrair informações, identificar categorias, classificar, contar e realizar uma série de tarefas complexas com base em grandes quantidades de texto.

Neste artigo, utilizamos a base de propostas das eleições de 2020 no Estado de São Paulo para identificar os grandes eixos temáticos discutidos para a área de segurança pública municipal. Para esta análise foi necessário: 1) reunir os 2.361 planos municipais de governo; 2) extrair as propostas relativas a segurança pública e armazená-las numa planilha; 3) com base nas propostas, identificar os grandes eixos temáticos e classificar cada proposta; 5) contar as propostas dentro de cada eixo.

Na prática, observamos que a lista de propostas começou a ficar repetitiva a partir das primeiras centenas de planos, uma vez que o repertório nesta área costuma ser limitado. Reduzimos a busca aos primeiros 1.000 documentos, inseridos de forma aleatória, pela ordem alfabética do nome do arquivo.

Estes documentos foram armazenados na nuvem numa pasta própria – pois a capacidade de armazenamento do ChatGPT é limitada – e foi pedido ao sistema que extraísse propostas apenas destes documentos. Isto evita que o sistema “alucine” ou que inclua propostas fora do contexto paulista, extraídas da gigantesca base de conhecimento destas LLMs. Ao todo, 444 propostas foram identificadas pelo sistema, embora muitas delas tenham um teor bastante parecido. Note-se que o ChatGPT não tem a capacidade de analisar mais do que uma dúzia de documentos próprios de cada vez, de modo que para fazer esta extração, além da versão paga do ChatGPT, é preciso assinar algum outro serviço que permita armazenar e inserir as fontes desejadas para que o sistema as analise.

O sistema de IA consegue fazer com facilidade tarefas comuns de QDA (Análise automática de discurso), como tokenização, contagem de palavras-chave e criação de bigramas e trigramas, que dão uma noção inicial do conteúdo do material. Assim, com base nas propostas, o sistema identificou as 10 palavras mais frequentes no texto, excluindo stopwords: Monitoramento, Câmeras, Segurança, Criação, Municipal, Policiamento, Guarda, Pública, Programa e Integração.

Por sua vez, os dez trigramas (três palavras adjacentes) mais frequentes no texto fornecido foram: Plano Municipal Segurança, Guarda Civil Municipal, Monitoramento por Câmeras, Câmeras em Pontos, Criação de Programas, Câmeras de Segurança, Capacitação dos Guardas, Sistema de Monitoramento, Integração da Guarda e Policiamento de Proximidade. Esses trigramas refletem a ênfase nas propostas relacionadas à segurança pública, envolvendo planos municipais, monitoramento, capacitação, integração e policiamento, destacando a importância desses elementos na formulação das políticas de segurança.

Outra técnica comum em QDA é a Análise de Redes Semânticas, que busca criar de redes de co-ocorrências de palavras para identificar relações semânticas entre termos e explorar como os conceitos estão interconectados. A visualização abaixo mostra as conexões entre as palavras mais frequentes no texto. Cada aresta (linha) entre dois nós (palavras) representa a co-ocorrência desses termos, e a espessura da aresta indica a frequência com que os termos aparecem juntos.

 

 

Uma das características mais interessantes dos sistemas de IA generativa é a capacidade de identificar grandes eixos temáticos com base em similaridades semânticas, algo que em QDA se chamava de “topic modeling”, mas que agora é mais sofisticado e preciso. Pedimos ao ChatGPT que organizasse as propostas em torno de alguns grandes eixos temáticos e o resultado é resumido na tabela abaixo.

Com a finalidade de verificar se o sistema fornecia respostas consistentes, dividi as 444 propostas em três diferentes listas aleatórias, cada qual com cerca de 150 propostas (Listas 1, 2 e 3). Embora mudando um pouco o nome de cada eixo, nas três tentativas de identificação o ChatGPT produziu eixos similares todas as vezes. A quantidade de propostas encontradas em cada lista também é parecida (entre 62 e 74). E pelo menos no que tange aos eixos principais, a quantidade de propostas também foi parecida.

Não é possível garantir que este procedimento seja uma prova de que a classificação foi consistente, uma vez que IAis generativas tem “memória longa” e guardam as respostas precedentes nos chats. Ele pode ter aplicado nas Listas 2 e 3 categorias previamente identificadas na Lista 1. O ideal aqui talvez tivesse sido utilizar cada uma das listas em LLMs diferentes, como Gemini, PaLm, Llama, Claude, etc. – e verificar se os eixos e quantidades são consistentes, ou comparar com uma tentativa manual de classificação, mas isto está fora das pretensões deste artigo.

De todo modo, uma lida superficial nos programas sugere que a taxonomia e quantificação fazem bastante sentido e coincidem com as palavras chave, bigramas e trigramas mais comuns no texto. Vejamos alguns exemplos identificados pelo sistema dentro de cada eixo:

Monitoramento e Vigilância

· – GPS nas viaturas

· – Sistema de monitoramento por câmeras

· – Implementação do sistema de monitoramento COI (Centro de Operações Integradas)

· – Monitoramento por câmeras de segurança interligado com polícias

· – Criação de barreira eletrônica com Detecta

· – Instalação de câmeras de segurança em pontos estratégicos

· – Monitoramento de pontos críticos da cidade

· – Integração das câmeras de monitoramento com a plataforma de inteligência da prefeitura

 

Prevenção e Combate à Criminalidade

· – Ações preventivas contra microcriminalidade

· – Programa de tolerância zero à receptação de materiais furtados

· – Ações de natureza preventiva para crianças e jovens

· – Prevenção à violência e criminalidade

· – Reocupação de espaços abandonados para segurança

· – Plano Municipal de Segurança Pública

· – Criação de centros de inteligência

 

Capacitação e Formação

· – Programas de aprimoramento da atividade profissional

· – Treinamento e capacitação da GCM (Guarda Civil Municipal)

· – Formação contínua da Guarda Civil Municipal

· – Plano de carreira da Guarda Civil Municipal

· – Capacitação dos guardas municipais

· – Plano de Cargos e Carreiras da GCM

 

Infraestrutura e Equipamentos

· – Criação da Guarda Municipal Ambiental

· – Criação de pontos de apoio de segurança

· – Aquisição de viaturas para a Guarda Civil Municipal

· – Canil da Guarda Civil Municipal

· – Iluminação pública de LED

· – Reestruturação da Guarda Municipal

· – Reestruturação da Defesa Civil

· – Modernização do sistema de iluminação pública

· – Implementação de barreiras eletrônicas para controle de segurança

 

Parcerias e Integração

· – Parceria com a Secretaria de Segurança Pública para custeio de banco de horas

· – Integração das câmeras de monitoramento com a plataforma de inteligência da prefeitura

· – Criação do Consórcio Intermunicipal de Segurança Pública

· – Parcerias para melhorias na segurança pública

· – Fortalecimento do Conselho de Segurança Pública

· – Gestão integrada de segurança pública

· – Fortalecimento da integração entre Polícia Militar e Guarda Municipal

 

Planejamento e Modelos de Segurança

· – Plano Municipal de Segurança Pública

· – Elaboração do Plano Municipal de Segurança e do Mapa de Ameaças Múltiplas

· – Plano de carreira da GCM

· – Reestruturação da Defesa Civil

· – Estatuto da Cidade

· – Plano Diretor para a expansão da cidade

· – Fortalecimento da Defesa Civil Municipal

· – Regionalização das políticas públicas de proteção

 

Patrulhamento e Rondas

· – Rondas intensivas na zona rural

· – Bases comunitárias da GCM

· – Fortalecimento da patrulha rural

· – Aumento do efetivo da GCM

· – Criação de postos avançados de Guardas Municipais

 

Programas Específicos

· – Programa “GCM Amiga da Escola”

· – Programa “Olho Vivo”

· – Programa de ocupação para jovens em áreas de lazer

· – Apoio ao programa Vizinhança Solidária

· – Criação da Guarda Mirim Municipal

· – Programa de tolerância zero à receptação de materiais furtados

· – Criação de departamento especializado em segurança urbana

 

Embora a capacidade de classificação tenha problemas – eixos que não são exaustivos ou mutuamente exclusivos, propostas que não foram classificadas em nenhum eixo ou que aparecem em mais de um eixo etc. – o resultado geral é satisfatório, considerando-se que a IA extrai, identifica e quantifica os dados em algumas horas, bastando o acesso a uma boa base de dados textuais (um corpus) e alguma “engenharia de prompt” que saiba o que e como solicitar ao sistema. Ela consegue resumir uma grande quantidade de documentos e dar uma ideia geral sobre o que eles falam, utilizando os filtros introduzidos pelo analista (por ex. tema segurança pública, São Paulo, etc.). Uma análise manual destes documentos demandaria semanas de trabalho e é possível que a identificação de alguns eixos escapasse ao analista.

Com efeito, os sistemas de IA são capazes de fazer muitas outras coisas não discutidas aqui: por exemplo, cruzar os eixos temáticos com os Partidos Políticos de origem e checar se existe uma associação estatística entre eixos e a orientação no espectro direita-esquerda do partido; criar um código em Phyton, R, VBA, etc. que classifique automaticamente as propostas novas, conforme os grandes eixos identificados; criar novas colunas na planilha de propostas, rotulando cada proposta, analisar sentimentos, e assim por diante.

Esta capacidade de analisar grandes quantidades de documentos tem diversas utilidades. Como estamos analisando uma base de propostas de governo, uma utilidade óbvia é o auxílio à elaboração de novas propostas de governo.

Participei pela primeira vez de uma campanha eleitoral de 1994, inserindo numa planilha Lotus 123 os gastos da campanha de FHC e a última vez em 2020, organizando as propostas do candidato Andrea Matarazzo para a prefeitura de São Paulo. Os sistemas de IA generativos serão um marco divisório para a elaboração de programas de governo ou para a análise de discurso, como em diversas outras áreas. Disponibilizado em meados de 2002, é bastante provável que o ChatGPT tenha sido utilizado agora pela primeira vez para a elaboração de diversos planos de governo para estas eleições municipais, cujo prazo para registro das propostas se encerra dia 5 de julho.

Não há problema nisso, desde que tomados certos cuidados. É possível fazer diagnósticos e propostas relevantes, conjugando as IAis generativas com a consulta aos especialistas, reuniões com a comunidade, pesquisa em textos acadêmicos e consulta aos programas de governo já feitos em eleições anteriores.

Existem problemas conhecidos nos textos gerados exclusivamente por IA – como vieses, alucinação, defasagem das informações, etc. – e um monitoramento humano sempre será necessário. Humanos precisam fazer a curadoria dos documentos que devem entrar na base de conhecimento e humanos devem escrever os comandos corretos para extrair os dados necessários. Humanos votam nas eleições e elegem os candidatos e é preciso sempre do bom senso e percepções de conjuntura para criar programas que tragam propostas baseadas em boas evidencias, mas que também falem ao coração do eleitor.

Não basta apenas saber utilizar bem a ferramenta e construir bons programas de governo. Se fosse assim as eleições terminariam empatadas. No final, com ou sem auxílio de IA, vencem os candidatos que sabem traduzir os anseios da população naquele momento e que tem as características desejadas pelo eleitor. Mas com o auxílio de IA tudo fica bem mais fácil.

 

 

Os artigos publicados com assinatura são de responsabilidade de seus autores e não representam necessariamente a opinião do PSD e da Fundação Espaço Democrático. Sua publicação obedece ao propósito de estimular o debate dos problemas brasileiros e mundiais e de refletir as diversas tendências do pensamento contemporâneo.


ˇ

Atenção!

Esta versão de navegador foi descontinuada e por isso não oferece suporte a todas as funcionalidades deste site.

Nós recomendamos a utilização dos navegadores Google Chrome, Mozilla Firefox ou Microsoft Edge.

Agradecemos a sua compreensão!