Pesquisar

Taxonomy - Destaquinho

Transparência das informações versus privacidade

A simples anonimização de dados não é garantia de privacidade quando existem informações que permitem a “reidentificação”, escreve Tulio Kahn

Tulio Kahn, sociólogo e colaborador do Espaço Democrático

Edição Scriptum

 

Nossos dados pessoais são compartilhados em dezenas de bases de dados e muitas destas bases contêm informações sensíveis que nem todo mundo gostaria de compartilhar, como sites visualizados ou palavras chaves que buscadas no Google... O mesmo se aplica aos dados públicos com informações particulares sobre sua saúde – que podem ser usados para negar empregos, seguros ou empréstimos – ou sobre crimes eventualmente ocorridos na sua residência, ou ainda sobre sua renda, para mencionar alguns tipos de dados sensíveis que os órgãos governamentais têm.

Por outro lado, sabemos que na era da I.A. estas informações são as vezes relevantes para o desenvolvimento de modelos estatísticos, pesquisas e tratamentos médicos, avaliações de impacto de políticas, distribuição de recursos policiais e dezenas de outras atividades acadêmicas e operacionais. A questão é como conciliar o direito individual à privacidade ao mesmo tempo em que se permite o acesso de nossas informações para bases públicas e privadas para fins de pesquisa ou outros usos socialmente relevantes. Interessa à coletividade conhecer as ruas mais perigosas, a melhor rota de trânsito, o desenvolvimento do tratamento de doenças, o impacto dos programas sociais na renda etc. e isso só é possível com a utilização de bases gigantescas, razoavelmente detalhadas e não enviesadas.

Uma prática comum dos detentores de dados é fornecer bases que sejam anonimizadas, isto é, sem nomes, números de documentos ou outros dados que permitam a individualização das informações. Essa precaução, todavia, não garante que se faça a “reidentificação”, que é a utilização de filtros de pesquisa e cruzamento de informações para que se consiga novamente chegar a indivíduos específicos. A probabilidade de “reidentificação” pode ser entendida como a inversa do número de indivíduos que compartilham as mesmas características.

Vou dar um exemplo concreto a partir de uma base de dados de 137 mil presos que obtive para pesquisa nos anos 1990, que foi anonimizada, mas que contém informações demográficas como data de nascimento, gênero e cor dos indivíduos, entre outras. Não seria muito difícil “reidentificar” indivíduos com o conhecimento de algumas poucas informações demográficas sobre eles.

Se soubermos a data de aniversário, já podemos utilizar um primeiro filtro, que resultaria teoricamente em 375 indivíduos, aproximadamente, uma vez que cada aniversário se repete cerca de 365 vezes. (137000: 365 = 375,3). Sabendo que se trata de uma mulher reduziríamos nossa busca a 187,5 pessoas. Supondo que conhecemos que se trata de uma mulher negra, e que os “pretos”, conforme a classificação do SEADE, representam cerca de 5,5% da população de São Paulo, nossa lista final de candidatas teria menos de dez pessoas. Assim, quanto mais informações tivermos e mais detalhadas, mais fácil se torna filtrar os dados para chegarmos ao indivíduo de interesse.

O procedimento é um pouco mais complicado se não estivermos falando de uma amostra representativa da população, mas de um subconjunto específico, como a população prisional. A probabilidade de “reidentificação” também depende da distribuição da população na base de dados. Por exemplo, a data de nascimento nunca é precisamente a mesma para cada dia do ano, uma vez que nascem mais pessoas em alguns dias e meses. Cerca de 95,9% da população prisional é masculina, em contraste com metade da população paulista. Na nossa amostra, descobrimos também que “pretos” representam 12,1% dos presos, em contraste com 5,5% da população paulista. Trata-se, portanto, de uma amostra bem distinta da população em geral, mas conhecendo este perfil, é fácil proceder aos cálculos.

Selecionamos um aniversário ao acaso (15 de junho) e encontramos na amostra 466 presos que fazem aniversário nesta data. Quando filtramos as mulheres, encontramos 22 casos e quando adicionamos a informação sobre a cor, chegamos a apenas dois indivíduos. Partimos de uma base anonimizada com 137 mil indivíduos e utilizando apenas três filtros reduzimos as possibilidades para 2 pessoas!

A data de nascimento é uma variável considerada altamente identificável, especialmente quando combinada com outras variáveis demográficas e é definida como um “quase-identificador”. Mesmo em uma grande base de dados, com milhares de registros, a data de nascimento pode ser única ou quase única, o que aumenta o risco de “reidentificação”. Estudos indicam que datas de nascimento são um dos principais fatores de risco para “reidentificação”, especialmente quando combinadas com outras variáveis. Em um estudo clássico conduzido por Latanya Sweeney, ela demonstrou que 87% da população dos Estados Unidos poderia ser identificada unicamente usando apenas três atributos: data de nascimento, gênero e CEP. (Sweeney, L. (1997), Weaving Technology and Policy Together to Maintain Confidentiality. The Journal of Law, Medicine & Ethics, 25: 98-110). De fato, quando o governador do seu Estado resolveu divulgar os dados de saúde anonimizados, não demorou muito para que Sweeney enviasse ao governador, pelo Correio, sua ficha médica anônima...

Uma técnica comum para proteger os dados contra a possibilidade de “reidentificação” é garantir que cada combinação de quasi-identificadores esteja presente em pelo menos k registros na base de dados. Se uma combinação específica de data de nascimento, gênero e CEP for única ou quase única, a base de dados não satisfaria um nível de k-anonimato adequado, sugerindo um risco elevado de “reidentificação”. Analistas de dados atualmente fazem testes deste tipo para verificar os riscos de “reidentificação” das bases e introduzir medidas para mitigá-los.

Algumas estratégias foram pensadas para reduzir esse risco, como generalização ou agregação, que consiste em agrupar datas de nascimento em faixas etárias ou limitar a granularidade do CEP. Supressão, por sua vez, seria remover completamente datas de nascimento ou outros quasi-identificadores quando o risco de “reidentificação” for alto e a informação muito sensível. Perturbação, finalmente, significa introduzir ruído ou pequenas alterações nos dados para dificultar a “reidentificação”.

Qualquer que seja a estratégia adotada é importante que a base de dados mantenha as mesmas características da original. Infelizmente os gestores de bases nem sempre atentam para este ponto e introduzem vieses nos dados. Muitos pesquisadores utilizam, como eu, as bases criminais georreferenciadas disponibilizadas pela Secretaria de Segurança Pública de São Paulo para estudar a criminalidade no Estado. Pensando na privacidade das vítimas, a secretaria disponibilizou as bases de dados sem os endereços ou geolocalização, sempre que o tipo de local era classificado como “residência”, “casa”, “apartamento” etc. Esse procedimento foi adotado não apenas em casos de “violência doméstica” ou crimes sexuais – dados mais sensíveis – mas até mesmo para casos corriqueiros de furto ou roubo.

O resultado foi o enviesamento da base quando se trata de refinar a análise geograficamente, uma vez que todos os eventos dentro de residências desaparecerão, restando apenas os ocorridos em locais públicos e outros. A análise pode ainda ser feita num nível mais agregado, como bairros ou distritos (generalização), mas é preciso levar em conta esse viés sistemático ao produzir mapas ou modelos estatísticos. Nesse caso específico, uma estratégia possível seria a “perturbação”, introduzindo, por exemplo, um ruido aleatório nas coordenadas geográficas, deslocando o centroide para um raio de “N” metros ao redor do local real do crime.

Mas é preciso ter em mente que o ruído introduzido pela perturbação proposital pode reduzir a precisão de modelos preditivos baseados em localização usados hoje em sistemas do tipo “policiamento preditivo”. Modelos que tentam prever a ocorrência de eventos futuros com base em dados históricos podem ser menos eficazes se a localização precisa dos eventos passados estiver comprometida. Esse alerta deveria ser incorporado nos metadados de qualquer base disponibilizada para o público. O jornal Estado de S.Paulo, por exemplo, construiu excelentes ferramentas de visualização de crimes na cidade, o Radar da Criminalidade, mas iniciativas como estas ficam parcialmente comprometidas pela ausência de crimes residenciais, suprimidos em nome da privacidade.

O uso de dados sintéticos é uma abordagem que vem sendo utilizada para lidar com questões de privacidade e segurança em conjuntos de dados que contêm informações sensíveis. Esta técnica permite a criação de dados que mantêm as propriedades estatísticas dos dados reais, sem expor informações identificáveis dos indivíduos. Dados sintéticos são conjuntos de dados gerados artificialmente, que reproduzem as características estatísticas dos dados originais. Eles são criados de maneira que se assemelhem aos dados reais em termos de distribuição, correlações e estrutura, mas não correspondem a registros de indivíduos reais. Dessa forma, permitem análises e treinamentos de modelos sem risco de “reidentificação” direta.

O problema aqui é que a qualidade dos dados sintéticos depende muito da precisão dos modelos geradores. Se os modelos não capturarem adequadamente a complexidade dos dados reais, os dados sintéticos podem não ser representativos e levar a conclusões incorretas.

Existe um trade-off entre privacidade e a necessidade de gerar informações públicas que sejam úteis e confiáveis. É preciso pensar na sensibilidade de cada tipo de informação para decidir, em cada situação específica, quando é necessário omitir ou camuflar dados e quando é possível ampliar a sua divulgação. A simples anonimização, como vimos, não é garantia de privacidade quando existirem outras informações que permitam a “reidentificação”. Excluir dados relevantes da base, por outro lado, pode implicar em sérios vieses na identificação de padrões e modelos.

Somos cada vez mais uma sociedade dependente de algoritmos baseados em dados, o que tem contribuído para o avanço desde atividades do dia a dia – como escolher um filme ou música – até o desenvolvimento de diagnósticos médicos, novas medicações e sistemas de predição de crimes. O princípio básico deve ser o da transparência das informações e, quando necessário, o uso de algumas das técnicas sugeridas acima, pode evitar a violação da privacidade de dados sensíveis. O problema, como sempre, é que estamos diante de dois princípios igualmente válidos, o que torna mais relevante a discussão pública sobre regras e critérios sobre o que e como deve ser divulgado.

 

ESTE TEXTO FOI ESCRITO COM AUXÍLIO PARCIAL DE I.A.

 

Os artigos publicados com assinatura são de responsabilidade de seus autores e não representam necessariamente a opinião do PSD e da Fundação Espaço Democrático. Sua publicação obedece ao propósito de estimular o debate dos problemas brasileiros e mundiais e de refletir as diversas tendências do pensamento contemporâneo.

Card link Another link
O eleitor premiou o centro

A polarização entre lulismo e bolsonarismo, principal narrativa política da campanha, não aconteceu, escreve Rogério Schmitt

  Rogério Schmitt, cientista político e colaborador do Espaço Democrático Edição Scriptum   A democracia brasileira deu mais uma demonstração de vigor nas eleições municipais realizadas neste domingo (6). Em poucas horas já sabíamos os nomes dos prefeitos e vereadores eleitos (ou que foram para o segundo turno) nas 5.569 cidades do País. Uma das narrativas políticas mais repetidas ao longo da campanha eleitoral foi a de que elas seriam uma mera repetição da polarização entre lulismo e bolsonarismo que predominou nos dois últimos pleitos presidenciais. Nada mais distante da realidade. Quando examinamos friamente os grandes números das eleições municipais, a conclusão inescapável é a de que o centro político foi – novamente – o grande vencedor da disputa. O PSD e o MDB, os dois partidos de centro mais importantes, foram também as legendas que elegeram o maior número de prefeitos no Brasil como um todo: 882 e 856, respectivamente. É verdade que estes números não são definitivos, pois ainda haverá segundo turno em 52 cidades. Mas nenhum dos dois partidos de centro poderá ser ultrapassado na classificação geral. Os 1.738 municípios que serão administrados por partidos de centro correspondem a quase um terço (31,2%) do número total de cidades brasileiras. O panorama não é muito diferente quando examinamos os resultados das eleições para as câmaras municipais. O MDB (com 8.064 vereadores eleitos) e o PSD (com 6.579) ocupam duas das três primeiras posições na tabela de classificação. Vale lembrar que, ao contrário do que acontece com os vereadores, os prefeitos eleitos podem trocar livremente de partido ao longo do mandato. Nesse sentido, não será uma surpresa caso o PSD e/ou o MDB consigam atrair, nos próximos anos, gestores municipais eleitos por outros partidos. A hipótese da polarização não encontra, assim, amparo nas evidências. O PT de Lula ficou apenas na 9ª posição no ranking de prefeitos, e em 8º no de vereadores. Já o PL de Bolsonaro terminou na 5ª posição em ambas as classificações. Para mim não resta dúvida: os partidos de centro (mesmo sem considerar outras siglas que poderiam ser classificadas neste campo político) foram os maiores vencedores das eleições municipais de 2024. O eleitor rejeitou a lacração ideológica e premiou a moderação.   Os artigos publicados com assinatura são de responsabilidade de seus autores e não representam necessariamente a opinião do PSD e da Fundação Espaço Democrático. Sua publicação obedece ao propósito de estimular o debate dos problemas brasileiros e mundiais e de refletir as diversas tendências do pensamento contemporâneo.

Card link Another link
Lei das Bets privilegiou o dinheiro e não a saúde das pessoas

Programa Diálogos no Espaço Democrático entrevistou o psiquiatra Hermano Tavares, especialista em jogo compulsivo

   

    Redação Scriptum   A legislação que regulamenta a operação das empresas de apostas on-line no Brasil, que se tornou conhecida como a Lei das Bets e entra em vigor no mês de janeiro, parece ter se preocupado mais com os aspectos financeiros e econômicos da questão que com o impacto sobre a saúde das pessoas, especialmente aquelas das faixas socioeconômicas mais baixas. A avaliação é do doutor em Psiquiatria Hermano Tavares em entrevista para o programa Diálogos no Espaço Democrático, produzido pela fundação de estudos e formação política do PSD e disponível em seu canal de YouTube. Criador do Programa Ambulatorial do Jogo Patológico (PRO-AMJO), do Instituto de Psiquiatria da Universidade de São Paulo (USP), Tavares dá uma razão muito objetiva para explicar a sua análise: “A lei destina 1% do recolhimento para o Ministério da Saúde e este 1%, que é insuficiente e irrisório, vai cair no Ministério da Saúde e sabe-se lá se vai ser usado especificamente para tratamento do jogador compulsivo, ou para prevenção, ou para a capacitação da rede”, diz. “A demanda de tratamento nunca encontrará a oferta que precisa”. Entrevistado pelo gestor em saúde Januario Montone e pelos jornalistas Eduardo Mattos e Sérgio Rondino, coordenador de comunicação do Espaço Democrático e âncora do programa de entrevistas, o psiquiatra lembrou que esta não é a primeira vez que o Brasil passa por um surto como este. Nos anos 1990 havia muitas pessoas jogando demais e o País teve uma epidemia de transtorno do jogo. “Houve o acesso amplo e facilitado ao jogo, sobretudo às máquinas caça-níqueis, que foram incluídas indevidamente na lei do bingo através da definição de máquinas de vídeo bingo”, lembrou ele, destacando que a criação do PRO-AMJO se deu naquele período, quando não havia serviços especializados. “A história está se repetindo: estamos soterrados pela demanda de pessoas com problemas com o jogo; a demanda não vai aumentar, ela já aumentou e estamos lidando com o problema”. Uma das muitas críticas que Tavares faz à legislação refere-se à propaganda. Segundo ele, há estudos que embasam a tese segundo a qual a limitação da publicidade tem efeito positivo na regulação e no controle. “Em países que limitaram a publicidade vemos algum controle da situação”, disse. “Sabemos que indivíduos mais jovens tem vulnerabilidade maior, por isso proibimos a publicidade para menores de idade”. Segundo ele, esta proibição é feita no mundo todo para tabaco e álcool, que são conhecidos formadores de hábito, como acontece com as apostas. “E os produtos formadores de hábito, em combinação com pessoas vulneráveis, são muito difíceis de controlar, causam compulsão, dependência, vício”. Tavares defende que a questão seja discutida de maneira técnica, responsável e multidisciplinar. “É preciso discutir com profissionais de várias áreas: juristas, economistas, técnicos de computação e profissionais da saúde especializados na área de compulsividade para o jogo”, afirma. “Com esse conhecimento reunido será possível montar os mecanismos de identificação das atividades estranhas, que fogem a um simples ato recreativo de fazer apostas esporadicamente”.

Card link Another link
Até adolescentes já se tornaram jogadores compulsivos

Espaço Democrático entrevista integrante dos Jogadores Anônimos, comunidade que busca ajudar dependentes

[caption id="attachment_38789" align="aligncenter" width="560"] Reunião semanal de colaboradores do ED discutiram a questão das bets e o vício em jogo[/caption]   Redação Scriptum   A estimativa foi divulgada nesta quarta-feira (25) pelo Banco Central: entre R$ 18 bilhões e R$ 21 bilhões têm sido gastos mensalmente por pessoas físicas nas plataformas de apostas – as chamadas bets – e nos cassinos on-line, que oferecem jogos como o popular Tigrinho. Com base nos dados de transferências por PIX para as bancas virtuais, o BC calcula que por volta de 24 milhões de brasileiros realizaram ao menos uma transferência para essas empresas entre janeiro e agosto deste ano. Nesta terça-feira (24), o presidente do BC, Roberto Campos Neto, disse que as plataformas de apostas e os jogos on-line podem estar aumentando a inadimplência das famílias, com o comprometimento da renda. Segundo ele, desde janeiro houve crescimento superior a 200% no valor que os jogadores transferem para essas empresas. As reações a este fenômeno cresceram nos últimos dias. Na semana passada, o senador Omar Aziz (PSD-AM), entrou com uma Ação de Descumprimento de Preceito Fundamental (ADPF) na Procuradoria-Geral da República (PGR) para suspender o funcionamento das bets. Já a Confederação Nacional do Comércio de Bens, Serviços e Turismo (CNC) ingressou no Supremo Tribunal Federal (STF) com uma Ação Direta de Inconstitucionalidade (ADI) para contestar a Lei 14.790/2023, a “Lei das Bets”, que regulamenta as apostas – a entidade pede a suspensão da eficácia da lei para evitar danos ao comércio e à economia do País. Por trás dos números bilionários movimentados pelas empresas de apostas e das reações à operação delas está a faceta mais dramática deste processo: as histórias muitas vezes trágicas enfrentadas por centenas de famílias, desarranjadas social e financeiramente por jogadores compulsivos, vítimas de um distúrbio psiquiátrico conhecido como jogo patológico – o vício em jogar. Uma das poucas instituições que auxilia pessoas a enfrentarem a compulsão é a Irmandade dos Jogadores Anônimos (JA), criada em 1957, em Los Angeles (EUA), e no Brasil desde 1983. O trabalho desenvolvido pela comunidade foi detalhado nesta terça-feira (24) por um de seus integrantes, identificado apenas pelo pseudônimo de João em uma entrevista coletiva on-line concedida a consultores do Espaço Democrático – a fundação para estudos e formação política do PSD.
 
“Nós não fazemos estatísticas, mas percebemos que depois da pandemia o crescimento do número de pessoas que querem ajuda para deixar o jogo foi exponencial”, contou. E a faixa etária dos compulsivos que buscam a JA vem caindo: “Hoje são jovens entre 20 e 30 anos, mas já temos até mesmo adolescentes que procuram ajuda, levados por seus responsáveis”. O aumento da demanda, “espantoso”, segundo ele, não se limita às cidades mais urbanizadas do Brasil. “Recebemos mensagens dos lugares mais distantes do País, de pequenas cidades”, diz. “Ao contrário de como acontecia no passado, quando o jogo era analógico e a pessoa tinha que ir a determinado lugar para jogar, hoje o jogo está na palma da mão, no celular”. Os militantes da JA não fazem juízo de valor sobre se o jogo deve ou não ser legalizado no Brasil. “Nosso único propósito é ajudar as pessoas que querem parar de jogar”, relata ele, que faz parte de um dos núcleos do Rio de Janeiro, no qual cinco voluntários se revezam no atendimento das pessoas que buscam auxílio. Hoje com mais de 60 anos, João relata a própria história de compulsão pelo jogo. Filho de uma mulher humilde que deixou a Região dos Lagos do Rio para tentar uma vida melhor na capital, ainda na infância ia até a banca do jogo do bicho próxima da sua casa para apostar para a mãe. “Eu era criança, um dia fiz uma aposta e ganhei; fui fisgado por aquilo”. A compulsão se instalou aos poucos. “Aos 31 anos, casado e com três filhos, eu jogava todo o meu pagamento, me endividava com agiotas e mentia em casa, dizia que havia sido assaltado e por isso estava sem dinheiro”, conta. Foi quando deu uma virada em sua vida entrando para a JA. Os casos que aparecem ali são muitos e de todo tipo. “Houve o caso de uma pessoa que ganhou na loteria, ficou rico e aumentou o padrão de jogo; quando chegou ao JA estava falido”, lembra. “E já recebemos casos de pessoas que se viciaram até nas bolsas de valores”. João explica que quando uma pessoa busca ajuda é apresentada a um questionário de 20 perguntas que define se ela é ou não compulsiva. “São perguntas como ‘você já perdeu horas de trabalho ou da escola devido ao jogo?’; ‘alguma vez você já jogou para obter dinheiro para pagar dívidas ou então resolver dificuldades financeiras?’; ‘após ter perdido você sentiu como se necessitasse voltar o mais cedo possível a recuperar as suas perdas?’; ‘você geralmente jogava até que seu último centavo acabasse?’; ‘você relutava em usar o “dinheiro do jogo” para as despesas normais?’”. A partir daí, considerado compulsivo o jogador passa a seguir o programa chamado 12 Passos para a recuperação, que é similar ao dos Alcóolicos Anônimos. O primeiro contato com os Jogadores Anônimos pode ser feito pelo site da irmandade, onde há o link para a linha de ajuda. Participaram da entrevista coletiva com João o sociólogo Tulio Kahn, os economistas Roberto Macedo e Luiz Alberto Machado, os cientistas políticos Rubens Figueiredo e Rogério Schmitt, o gestor público Januario Montone, o advogado e empresário Helio Michelini, a secretária do PSD Mulher Nacional, Ivani Boscolo, o superintendente da fundação, João Francisco Aprá, e os jornalistas Eduardo Mattos e Sérgio Rondino, coordenador de comunicação da fundação.

Card link Another link

ˇ

Atenção!

Esta versão de navegador foi descontinuada e por isso não oferece suporte a todas as funcionalidades deste site.

Nós recomendamos a utilização dos navegadores Google Chrome, Mozilla Firefox ou Microsoft Edge.

Agradecemos a sua compreensão!