Pesquisar
Taxonomy - Destacão
Transparência das informações versus privacidade
A simples anonimização de dados não é garantia de privacidade quando existem informações que permitem a “reidentificação”, escreve Tulio Kahn
Tulio Kahn, sociólogo e colaborador do Espaço Democrático
Edição Scriptum
Nossos dados pessoais são compartilhados em dezenas de bases de dados e muitas destas bases contêm informações sensíveis que nem todo mundo gostaria de compartilhar, como sites visualizados ou palavras chaves que buscadas no Google... O mesmo se aplica aos dados públicos com informações particulares sobre sua saúde – que podem ser usados para negar empregos, seguros ou empréstimos – ou sobre crimes eventualmente ocorridos na sua residência, ou ainda sobre sua renda, para mencionar alguns tipos de dados sensíveis que os órgãos governamentais têm.
Por outro lado, sabemos que na era da I.A. estas informações são as vezes relevantes para o desenvolvimento de modelos estatísticos, pesquisas e tratamentos médicos, avaliações de impacto de políticas, distribuição de recursos policiais e dezenas de outras atividades acadêmicas e operacionais. A questão é como conciliar o direito individual à privacidade ao mesmo tempo em que se permite o acesso de nossas informações para bases públicas e privadas para fins de pesquisa ou outros usos socialmente relevantes. Interessa à coletividade conhecer as ruas mais perigosas, a melhor rota de trânsito, o desenvolvimento do tratamento de doenças, o impacto dos programas sociais na renda etc. e isso só é possível com a utilização de bases gigantescas, razoavelmente detalhadas e não enviesadas.
Uma prática comum dos detentores de dados é fornecer bases que sejam anonimizadas, isto é, sem nomes, números de documentos ou outros dados que permitam a individualização das informações. Essa precaução, todavia, não garante que se faça a “reidentificação”, que é a utilização de filtros de pesquisa e cruzamento de informações para que se consiga novamente chegar a indivíduos específicos. A probabilidade de “reidentificação” pode ser entendida como a inversa do número de indivíduos que compartilham as mesmas características.
Vou dar um exemplo concreto a partir de uma base de dados de 137 mil presos que obtive para pesquisa nos anos 1990, que foi anonimizada, mas que contém informações demográficas como data de nascimento, gênero e cor dos indivíduos, entre outras. Não seria muito difícil “reidentificar” indivíduos com o conhecimento de algumas poucas informações demográficas sobre eles.
Se soubermos a data de aniversário, já podemos utilizar um primeiro filtro, que resultaria teoricamente em 375 indivíduos, aproximadamente, uma vez que cada aniversário se repete cerca de 365 vezes. (137000: 365 = 375,3). Sabendo que se trata de uma mulher reduziríamos nossa busca a 187,5 pessoas. Supondo que conhecemos que se trata de uma mulher negra, e que os “pretos”, conforme a classificação do SEADE, representam cerca de 5,5% da população de São Paulo, nossa lista final de candidatas teria menos de dez pessoas. Assim, quanto mais informações tivermos e mais detalhadas, mais fácil se torna filtrar os dados para chegarmos ao indivíduo de interesse.
O procedimento é um pouco mais complicado se não estivermos falando de uma amostra representativa da população, mas de um subconjunto específico, como a população prisional. A probabilidade de “reidentificação” também depende da distribuição da população na base de dados. Por exemplo, a data de nascimento nunca é precisamente a mesma para cada dia do ano, uma vez que nascem mais pessoas em alguns dias e meses. Cerca de 95,9% da população prisional é masculina, em contraste com metade da população paulista. Na nossa amostra, descobrimos também que “pretos” representam 12,1% dos presos, em contraste com 5,5% da população paulista. Trata-se, portanto, de uma amostra bem distinta da população em geral, mas conhecendo este perfil, é fácil proceder aos cálculos.
Selecionamos um aniversário ao acaso (15 de junho) e encontramos na amostra 466 presos que fazem aniversário nesta data. Quando filtramos as mulheres, encontramos 22 casos e quando adicionamos a informação sobre a cor, chegamos a apenas dois indivíduos. Partimos de uma base anonimizada com 137 mil indivíduos e utilizando apenas três filtros reduzimos as possibilidades para 2 pessoas!
A data de nascimento é uma variável considerada altamente identificável, especialmente quando combinada com outras variáveis demográficas e é definida como um “quase-identificador”. Mesmo em uma grande base de dados, com milhares de registros, a data de nascimento pode ser única ou quase única, o que aumenta o risco de “reidentificação”. Estudos indicam que datas de nascimento são um dos principais fatores de risco para “reidentificação”, especialmente quando combinadas com outras variáveis. Em um estudo clássico conduzido por Latanya Sweeney, ela demonstrou que 87% da população dos Estados Unidos poderia ser identificada unicamente usando apenas três atributos: data de nascimento, gênero e CEP. (Sweeney, L. (1997), Weaving Technology and Policy Together to Maintain Confidentiality. The Journal of Law, Medicine & Ethics, 25: 98-110). De fato, quando o governador do seu Estado resolveu divulgar os dados de saúde anonimizados, não demorou muito para que Sweeney enviasse ao governador, pelo Correio, sua ficha médica anônima...
Uma técnica comum para proteger os dados contra a possibilidade de “reidentificação” é garantir que cada combinação de quasi-identificadores esteja presente em pelo menos k registros na base de dados. Se uma combinação específica de data de nascimento, gênero e CEP for única ou quase única, a base de dados não satisfaria um nível de k-anonimato adequado, sugerindo um risco elevado de “reidentificação”. Analistas de dados atualmente fazem testes deste tipo para verificar os riscos de “reidentificação” das bases e introduzir medidas para mitigá-los.
Algumas estratégias foram pensadas para reduzir esse risco, como generalização ou agregação, que consiste em agrupar datas de nascimento em faixas etárias ou limitar a granularidade do CEP. Supressão, por sua vez, seria remover completamente datas de nascimento ou outros quasi-identificadores quando o risco de “reidentificação” for alto e a informação muito sensível. Perturbação, finalmente, significa introduzir ruído ou pequenas alterações nos dados para dificultar a “reidentificação”.
Qualquer que seja a estratégia adotada é importante que a base de dados mantenha as mesmas características da original. Infelizmente os gestores de bases nem sempre atentam para este ponto e introduzem vieses nos dados. Muitos pesquisadores utilizam, como eu, as bases criminais georreferenciadas disponibilizadas pela Secretaria de Segurança Pública de São Paulo para estudar a criminalidade no Estado. Pensando na privacidade das vítimas, a secretaria disponibilizou as bases de dados sem os endereços ou geolocalização, sempre que o tipo de local era classificado como “residência”, “casa”, “apartamento” etc. Esse procedimento foi adotado não apenas em casos de “violência doméstica” ou crimes sexuais – dados mais sensíveis – mas até mesmo para casos corriqueiros de furto ou roubo.
O resultado foi o enviesamento da base quando se trata de refinar a análise geograficamente, uma vez que todos os eventos dentro de residências desaparecerão, restando apenas os ocorridos em locais públicos e outros. A análise pode ainda ser feita num nível mais agregado, como bairros ou distritos (generalização), mas é preciso levar em conta esse viés sistemático ao produzir mapas ou modelos estatísticos. Nesse caso específico, uma estratégia possível seria a “perturbação”, introduzindo, por exemplo, um ruido aleatório nas coordenadas geográficas, deslocando o centroide para um raio de “N” metros ao redor do local real do crime.
Mas é preciso ter em mente que o ruído introduzido pela perturbação proposital pode reduzir a precisão de modelos preditivos baseados em localização usados hoje em sistemas do tipo “policiamento preditivo”. Modelos que tentam prever a ocorrência de eventos futuros com base em dados históricos podem ser menos eficazes se a localização precisa dos eventos passados estiver comprometida. Esse alerta deveria ser incorporado nos metadados de qualquer base disponibilizada para o público. O jornal Estado de S.Paulo, por exemplo, construiu excelentes ferramentas de visualização de crimes na cidade, o Radar da Criminalidade, mas iniciativas como estas ficam parcialmente comprometidas pela ausência de crimes residenciais, suprimidos em nome da privacidade.
O uso de dados sintéticos é uma abordagem que vem sendo utilizada para lidar com questões de privacidade e segurança em conjuntos de dados que contêm informações sensíveis. Esta técnica permite a criação de dados que mantêm as propriedades estatísticas dos dados reais, sem expor informações identificáveis dos indivíduos. Dados sintéticos são conjuntos de dados gerados artificialmente, que reproduzem as características estatísticas dos dados originais. Eles são criados de maneira que se assemelhem aos dados reais em termos de distribuição, correlações e estrutura, mas não correspondem a registros de indivíduos reais. Dessa forma, permitem análises e treinamentos de modelos sem risco de “reidentificação” direta.
O problema aqui é que a qualidade dos dados sintéticos depende muito da precisão dos modelos geradores. Se os modelos não capturarem adequadamente a complexidade dos dados reais, os dados sintéticos podem não ser representativos e levar a conclusões incorretas.
Existe um trade-off entre privacidade e a necessidade de gerar informações públicas que sejam úteis e confiáveis. É preciso pensar na sensibilidade de cada tipo de informação para decidir, em cada situação específica, quando é necessário omitir ou camuflar dados e quando é possível ampliar a sua divulgação. A simples anonimização, como vimos, não é garantia de privacidade quando existirem outras informações que permitam a “reidentificação”. Excluir dados relevantes da base, por outro lado, pode implicar em sérios vieses na identificação de padrões e modelos.
Somos cada vez mais uma sociedade dependente de algoritmos baseados em dados, o que tem contribuído para o avanço desde atividades do dia a dia – como escolher um filme ou música – até o desenvolvimento de diagnósticos médicos, novas medicações e sistemas de predição de crimes. O princípio básico deve ser o da transparência das informações e, quando necessário, o uso de algumas das técnicas sugeridas acima, pode evitar a violação da privacidade de dados sensíveis. O problema, como sempre, é que estamos diante de dois princípios igualmente válidos, o que torna mais relevante a discussão pública sobre regras e critérios sobre o que e como deve ser divulgado.
ESTE TEXTO FOI ESCRITO COM AUXÍLIO PARCIAL DE I.A.
Os artigos publicados com assinatura são de responsabilidade de seus autores e não representam necessariamente a opinião do PSD e da Fundação Espaço Democrático. Sua publicação obedece ao propósito de estimular o debate dos problemas brasileiros e mundiais e de refletir as diversas tendências do pensamento contemporâneo.
Card link Another linkO eleitor premiou o centro
A polarização entre lulismo e bolsonarismo, principal narrativa política da campanha, não aconteceu, escreve Rogério Schmitt
Rogério Schmitt, cientista político e colaborador do Espaço Democrático Edição Scriptum A democracia brasileira deu mais uma demonstração de vigor nas eleições municipais realizadas neste domingo (6). Em poucas horas já sabíamos os nomes dos prefeitos e vereadores eleitos (ou que foram para o segundo turno) nas 5.569 cidades do País. Uma das narrativas políticas mais repetidas ao longo da campanha eleitoral foi a de que elas seriam uma mera repetição da polarização entre lulismo e bolsonarismo que predominou nos dois últimos pleitos presidenciais. Nada mais distante da realidade. Quando examinamos friamente os grandes números das eleições municipais, a conclusão inescapável é a de que o centro político foi – novamente – o grande vencedor da disputa. O PSD e o MDB, os dois partidos de centro mais importantes, foram também as legendas que elegeram o maior número de prefeitos no Brasil como um todo: 882 e 856, respectivamente. É verdade que estes números não são definitivos, pois ainda haverá segundo turno em 52 cidades. Mas nenhum dos dois partidos de centro poderá ser ultrapassado na classificação geral. Os 1.738 municípios que serão administrados por partidos de centro correspondem a quase um terço (31,2%) do número total de cidades brasileiras. O panorama não é muito diferente quando examinamos os resultados das eleições para as câmaras municipais. O MDB (com 8.064 vereadores eleitos) e o PSD (com 6.579) ocupam duas das três primeiras posições na tabela de classificação. Vale lembrar que, ao contrário do que acontece com os vereadores, os prefeitos eleitos podem trocar livremente de partido ao longo do mandato. Nesse sentido, não será uma surpresa caso o PSD e/ou o MDB consigam atrair, nos próximos anos, gestores municipais eleitos por outros partidos. A hipótese da polarização não encontra, assim, amparo nas evidências. O PT de Lula ficou apenas na 9ª posição no ranking de prefeitos, e em 8º no de vereadores. Já o PL de Bolsonaro terminou na 5ª posição em ambas as classificações. Para mim não resta dúvida: os partidos de centro (mesmo sem considerar outras siglas que poderiam ser classificadas neste campo político) foram os maiores vencedores das eleições municipais de 2024. O eleitor rejeitou a lacração ideológica e premiou a moderação. Os artigos publicados com assinatura são de responsabilidade de seus autores e não representam necessariamente a opinião do PSD e da Fundação Espaço Democrático. Sua publicação obedece ao propósito de estimular o debate dos problemas brasileiros e mundiais e de refletir as diversas tendências do pensamento contemporâneo.
Card link Another linkO ouvidor do Brasil: um gênio nas letras de um imortal
Luiz Alberto Machado escreve sobre o mais recente livro de Ruy Castro, no qual Tom Jobim é o personagem central
Luiz Alberto Machado, economista e colaborador do Espaço Democrático Edição Scriptum O ouvidor do Brasil é o título do mais recente livro escrito por Ruy Castro, eleito em 2022 para a cadeira 13 da Academia Brasileira de Letras, tornando-se, portanto, um imortal. O subtítulo da obra é 99 vezes Tom Jobim. Sendo assim, não se trata de uma biografia, gênero que tem em Ruy Castro provavelmente seu maior expoente, mas o conjunto de 99 crônicas publicadas originalmente entre 2007 e 2023, na página 2 da Folha de S. Paulo, 90 das quais atualizadas, reescritas, dispostas em ordem mais temática do que cronológica e acrescidas de nove feitas exclusivamente para o livro. Todos os textos, de leitura fácil e agradável como costumam ser os de Ruy Castro, tratam de Tom Jobim, o homem e o artista, e do mundo que girou tendo-o como centro. Em alguns, a presença de Tom poderá parecer de passagem. Mas não é assim − tudo no livro só aconteceu ou está nele publicado porque um dia ele existiu. Dividido em quatro partes − O ouvidor do Brasil, com 25 crônicas; As boas histórias, 23 crônicas; Anos dourados, 27 crônicas; e Vou te contar, 24 crônicas − o livro dá ao leitor uma visão panorâmica de um gênio que foi seguramente um dos maiores responsáveis pela projeção do nome do Brasil no cenário da cultura mundial. Aliás, um dos aspectos que primeiro chama a atenção do leitor, seja ou não previamente admirador e conhecedor da obra de Antonio Carlos Brasileiro de Almeida Jobim, é justamente a paixão que ele tinha pelo país que ostentava em seu próprio nome. Nascido no Rio de Janeiro, em 25 de janeiro de 1927, e falecido em Nova York, em 8 de dezembro de 1994, Tom foi um cidadão do mundo, vivendo e se apresentando em diversos lugares, sem jamais perder a noção de qual era sua verdadeira casa, o Rio de Janeiro, onde alguns locais específicos mereciam especial adoração, entre os quais Ipanema e o Jardim Botânico. Apesar dessa paixão pelo Brasil, Tom Jobim reconhecia a complexidade dos problemas aqui existentes, a ponto de sua afirmação "o Brasil não é para principiantes" ser frequentemente utilizada − não raras vezes como epígrafe − em publicações referentes ao País. Com tamanho amor pelo Brasil, é natural que ficasse amargurado com tantos exemplos, presentes até os dias de hoje, de conterrâneos que vivem se queixando e criticando o País sempre que surge alguma oportunidade. Isso fica muito claro na crônica Em permanente estado de assembleia (pp. 19-20), assim concluída:
Tom não se queixava do Brasil. "É o único país do mundo com nome de árvore. E não tem mais essa árvore." Queixava-se do brasileiro , "que acorda todo dia para destruir o Brasil." E por ter tão pouca autoestima: "O Japão é um país paupérrimo, com vocação para a riqueza. Nós somos um país riquíssimo, com vocação para a pobreza." E ele se dizia tudo, menos saudosista: "De que adianta eu sentir saudade do Brasil se ninguém mais sente?".
Sem saber, sem querer e sem poder evitar, Tom era um homem em permanente estado de assembleia com o Brasil. Ainda na primeira parte, Ruy Castro destaca a estreita relação de Tom Jobim com a natureza, explícita na crônica Recado em prosa (pp. 27-28), na qual se lê: "O homem começou a derrubar as árvores assim que desceu delas". Poucas linhas abaixo, afirma: "Toda a minha obra é inspirada na Mata Atlântica", nos 5% ou 7% que sobraram dela, acrescentava. O amor pela natureza e a preocupação com o descaso com sua preservação fazem de Tom Jobim um precursor daqueles que apenas décadas depois passaram a reconhecer a relevância de temas como ecologia, meio ambiente, aquecimento global e mudanças climáticas. Em diversas crônicas aparecem os nomes de músicas que se tornaram mundialmente famosas, como Garota de Ipanema, Wave, Chega de saudade, Teresa da praia, Dindi, Desafinado, Samba de uma nota só, Insensatez, Retrato em branco e preto, Sabiá, Águas de março, muitas delas produto de sua parceria com outros nomes que projetaram a Bossa Nova no final da década de 1950, tais como João Gilberto, Vinicius de Moraes e Newton Mendonça. Aparecem com destaque, também, nomes de famosos intérpretes das canções criadas por Tom, a começar por Frank Sinatra, Stan Getz e Astrud Gilberto nos Estados Unidos, passando por Elis Regina, Elizeth Cardoso, Dolores Duran, Sylvia Telles, Johnny Alf, Dick Farney, Baden Powell e tantos outros. A boemia carioca da época, em que o Brasil se afirmava no cenário internacional graças à música e ao futebol, superando o complexo de vira-lata, também é lembrada em diversos momentos, quer pelos artistas que se apresentavam nos bares e nas boates do Rio de Janeiro, quer, sobretudo, pela turma que se encontrava no apartamento de Nara Leão, na avenida Atlântica, em Copacabana, entre os quais Roberto Menescal, Carlos Lyra, Ronaldo Bôscoli, Luiz Eça, Luiz Carlos Miele e Billy Blanco. Por todas essas razões, e muitas outras que não cabem num artigo desta natureza, sugiro vigorosamente a leitura de O ouvidor do Brasil, publicado pela Companhia das Letras, que inicia com a seguinte definição (p. 11):Ouvidor. S. m. Do latim auditor, -oris; auditor, ouvinte. Aquele que ouve. Atento aos valores ambientais, urbanos, vegetais, animais, humanos e culturais, e de prontidão para defendê-los. Que ouve os sons do país, venham da floresta ou da cidade. Exemplo: Antonio Carlos Jobim.
Os artigos publicados com assinatura são de responsabilidade de seus autores e não representam necessariamente a opinião do PSD e da Fundação Espaço Democrático. Sua publicação obedece ao propósito de estimular o debate dos problemas brasileiros e mundiais e de refletir as diversas tendências do pensamento contemporâneo. Card link Another linkDebates se afastam cada vez mais da discussão de propostas de governo
Reunião semanal do Espaço Democrático analisou como os conflitos e as ofensas tomaram lugar das ideias
[caption id="attachment_38757" align="aligncenter" width="559"] Sérgio Rondino: "As propostas de governo atraem pouco a atenção dos espectadores, que acabam se interessando mais por conflitos e bate-bocas"[/caption] Redação Scriptum O bizarro episódio ocorrido no debate de candidatos à Prefeitura de São Paulo no último domingo (15), quando José Luiz Datena (PSDB) deixou o seu púlpito para golpear Pablo Marçal (PRTB) com uma cadeira, foi o pano de fundo para a o tema da reunião semanal do Espaço Democrático – a fundação para estudos e formação política do PSD – nesta terça-feira (17). “Para que estão servindo, principalmente, os debates eleitorais?”, perguntou o jornalista Sérgio Rondino, coordenador de comunicação da fundação, antes de apresentar uma série de eventos ocorridos em debates desde a redemocratização. “Infelizmente, para a formação política do eleitor brasileiro, os debates têm servido menos do que deveriam. Desde que começaram a ser exibidos pela TV - e apesar dos esforços das emissoras - as propostas de governo atraem pouco a atenção dos espectadores, que acabam se interessando mais por conflitos e bate-bocas. Já para os partidos e candidatos, debates acabam sendo muito úteis para produzir material de campanha na televisão e, agora, os cortes para as redes sociais”, disse o jornalista, que foi mediador de vários debates, um dos quais lembrado até hoje, quando Paulo Maluf e Marta Suplicy, candidatos à Prefeitura de São Paulo, se enfrentaram na Rede Bandeirantes em 2000 e, aos berros, um mandou o outro calar a boca. Para embasar as análises, além da discussão entre Maluf e Marta, Rondino exibiu mais quatro vídeos: o bate-boca entre Maluf e Leonel Brizola, então candidatos a presidente da República, em 1989; um trecho das falas de Fernando Collor de Mello e Luiz Inácio Lula da Silva, em 1989, no debate do segundo turno da eleição presidencial e o depoimento do jornalista Armando Nogueira, à época diretor de jornalismo da TV Globo, sobre como subordinados seus manipularam a edição compacta apresentada no Jornal Nacional para favorecer Collor; e também uma discussão de 1998 entre Mario Covas e outra vez Maluf, candidatos ao governo de São Paulo, em debate na Rede Bandeirantes que também teve Sérgio Rondino como mediador. Rondino explicou como as redes de televisão buscam forçar os candidatos a discutir temas de gestão pública, que não despertam muito interesse do telespectador médio, que volta mais sua atenção para os conflitos e a troca de ofensas entre os candidatos, viés que começou a ser explorado na campanha paulistana por Pablo Marçal, no que foi seguido por quase todos os outros. Marçal cunha apelidos para os seus adversários e questiona não suas propostas de governo, mas episódios da vida privada de cada um. [caption id="attachment_38758" align="aligncenter" width="560"] Reunião semanal de colaboradores do Espaço Democrático[/caption] O cientista político Rubens Figueiredo lembrou que, apesar da audiência da televisão aberta ter caído bastante com a popularização das redes sociais, ela ainda é a melhor ferramenta de campanha, basta ver a evolução das intenções de voto em Ricardo Nunes, atual prefeito de São Paulo e candidato à reeleição, depois que o horário eleitoral começou. Ele acredita que os debates são restritos a um público mais escolarizado e àquele eleitor que já decidiu seu voto e lembra que o nível dos debatedores era muito melhor no passado. “A qualidade da classe política mudou muito, até os escândalos parecem diferentes: antes era um romance entre dois ministros de Collor ao som de Besame Mucho, hoje é uma avacalhação só”. O gestor público Januario Montone apontou o que considera um problema: o excesso de debates. “São muitos e em sequência, o que acaba desvalorizando o produto”, disse. “Na campanha presidencial dos Estados Unidos, por exemplo, são apenas três”. O cientista político Rogério Schmitt lembrou que o formato dos nossos debates foi copiado da campanha eleitoral americana, que tem apenas dois partidos e, portanto, dois candidatos debatendo, o que qualifica a conversa. “A legislação brasileira obriga que apenas candidatos de partidos que tenham uma bancada de no mínimo cinco deputados federais participem, mas o partido do Pablo Marçal, por exemplo, não tem e ele está lá”. Isto sugere que, conhecendo o perfil do candidato do PRTB, as emissoras talvez estejam estão mais preocupadas com a audiência que com a qualificação do debate. Participaram da reunião semanal do Espaço Democrático, além dos cientistas políticos Rubens Figueiredo e Rogério Schmitt, do jornalista Sérgio Rondino e do gestor público Januario Montone, os economistas Luiz Alberto Machado e Roberto Macedo, o sociólogo Tulio Kahn, o gestor público Júnior Dourado, o advogado e empresário Helio Michelini e o jornalista Eduardo Mattos.
Card link Another link