Decifrando os 'Unknown Unknowns': O Dilema em Data Science e Gerenciamento de Projetos

Desvendando os "Unknown Unknowns": Um Desafio Candente em Data Science
Recentemente, uma discussão intrigante emergiu na comunidade de Data Science do Reddit, encapsulada no título provocador: "Sou eu ou meus Gerentes de Projeto (PMs) que estão loucos? Desconhecidos desconhecidos" (em tradução livre de "Am I or my PMs crazy? Unknown unknowns"). O autor do post, u/Ciasteczi, descreve um cenário onde sua empresa busca desenvolver um produto capaz de detectar "desconhecidos desconhecidos" (unknown unknowns) em um sistema complexo, de forma não supervisionada, com o objetivo de identificar novos problemas antes mesmo que eles se manifestem. O cientista de dados expressa ceticismo, argumentando que a tarefa é mal definida e que a abordagem mais apropriada seria um pipeline de aprendizado de máquina (ML) supervisionado. A recusa dos PMs em definir uma "função de perda" para o sistema, alegando que "qualquer coisa pode ser uma novidade interessante", agrava o impasse. Este debate lança luz sobre um conceito fundamental e muitas vezes espinhoso no gerenciamento de projetos e na ciência de dados: a natureza e o tratamento dos "desconhecidos desconhecidos".
O Que São os "Unknown Unknowns"? A Definição Clássica e Suas Implicações
O termo "unknown unknowns" foi popularizado por Donald Rumsfeld, ex-Secretário de Defesa dos Estados Unidos, em uma conferência de imprensa em 2002. Ele categorizou o conhecimento em quatro quadrantes:
- Known knowns (Conhecidos conhecidos): Coisas que sabemos que sabemos.
- Known unknowns (Conhecidos desconhecidos): Coisas que sabemos que não sabemos. Estes são riscos identificáveis e gerenciáveis.
- Unknown knowns (Desconhecidos conhecidos): Coisas que não sabemos que sabemos (Rumsfeld, intencionalmente ou não, omitiu esta categoria, que alguns analistas consideram importante, referindo-se a conhecimentos que possuímos, mas dos quais não temos consciência ou que nos recusamos a reconhecer).
- Unknown unknowns (Desconhecidos desconhecidos): Coisas que não sabemos que não sabemos. Estes representam riscos e incertezas que são impossíveis de prever ou quantificar antecipadamente, pois estão completamente fora do nosso radar de conhecimento e experiência.
Em gerenciamento de projetos, especialmente os inovadores, a presença de "unknown unknowns" é uma realidade. São eventos ou condições que não podem ser antecipados através da análise de riscos tradicional, pois não há base para sua identificação.
O Desafio dos "Unknown Unknowns" em Projetos de Data Science
A situação descrita no post do Reddit ilustra perfeitamente o dilema. A empresa deseja um sistema de detecção de anomalias não supervisionado para descobrir "novos problemas antes mesmo que comecem". O problema reside na própria natureza dos "unknown unknowns": se são verdadeiramente desconhecidos, como um algoritmo pode ser treinado para identificá-los sem exemplos prévios ou uma definição clara do que constitui um "problema"? O autor do post argumenta que o modelo atual gera milhares de anomalias, a maioria sem significado prático, pois anomalias estatísticas não necessariamente se traduzem em eventos acionáveis. Ele sugere uma abordagem mais pragmática: definir uma "função de saúde" do sistema e, quando essa função se degradar, investigar as causas raízes, buscando padrões e causas desconhecidas para estados adversos conhecidos do sistema. Essa abordagem se alinha mais com a identificação de "known unknowns" ou a transformação gradual de "unknown unknowns" em "known unknowns" à medida que o conhecimento sobre o sistema evolui.
A tentativa de construir um sistema para detectar "unknown unknowns" de forma puramente não supervisionada, sem qualquer forma de feedback ou definição de relevância (como uma função de perda), é inerentemente paradoxal. Como um comentador no post sugere, uma abordagem mais viável poderia envolver um processo de duas etapas: usar a detecção de anomalias para sinalizar possíveis problemas e, em seguida, usar um classificador supervisionado (baseado no feedback humano sobre quais anomalias são significativas) para refinar a detecção.
Estratégias para Lidar com a Incerteza Imprevisível
Embora os "unknown unknowns" sejam, por definição, imprevisíveis, algumas estratégias podem ajudar as organizações a se prepararem melhor para a incerteza:
- Criação de Sentido (Sensemaking): Processos de coleta de informação e criação coletiva de sentido podem ser mais eficientes para identificar incertezas imprevisíveis do que a gestão de riscos tradicional. Isso envolve socializar o conhecimento de todos os integrantes da equipe e dos stakeholders.
- Gestão por Aprendizado: A experimentação e a improvisação são métodos úteis para lidar com eventos imprevistos.
- Diagnóstico de Incertezas: Incorporar um diagnóstico de incertezas pode ajudar a focar a busca de informações em áreas mais incertas do projeto.
- Fomentar um Ambiente de Inovação: Um ambiente que encoraja a curiosidade, a comunicação aberta e a aprendizagem contínua é crucial.
- Conscientização sobre Lacunas de Conhecimento: É importante que todos os envolvidos estejam cientes das limitações do conhecimento atual. Estudos mostram que gestores mais experientes podem, paradoxalmente, negligenciar a busca de informação sobre "unknown unknowns" devido a vieses como ancoragem e excesso de confiança.
- Flexibilidade e Adaptação: Os gerentes de projeto devem buscar ativamente novas informações e fazer ajustes nas atividades do projeto conforme novos dados surgem.
A Janela de Johari e a Percepção dos Desconhecidos
O conceito de "unknown unknowns" também encontra um paralelo na Janela de Johari, uma ferramenta psicológica criada por Joseph Luft e Harrington Ingham em 1955. Este modelo divide a autoconsciência e a percepção mútua em quatro quadrantes: Aberto (conhecido por si e pelos outros), Cego (desconhecido por si, mas conhecido pelos outros), Oculto (conhecido por si, mas desconhecido pelos outros) e Desconhecido (desconhecido por si e pelos outros). O quadrante "Desconhecido" da Janela de Johari corresponde aos "unknown unknowns" – aspectos do comportamento, sentimentos e motivações que nem o indivíduo nem os outros conhecem. A expansão da área Aberta, em detrimento das áreas Cega e Desconhecida, é um objetivo terapêutico para aumentar o autoconhecimento.
Conclusão: Navegando na Neblina da Incerteza em Data Science
O desafio apresentado no post do Reddit destaca uma tensão fundamental em projetos de inovação e data-driven: o desejo de antecipar o imprevisível. Embora a ideia de um sistema que magicamente revele "unknown unknowns" seja atraente, é crucial reconhecer as limitações metodológicas. A ciência de dados pode, sem dúvida, ajudar a descobrir padrões ocultos e anomalias, mas a interpretação e a atribuição de significado a essas descobertas, especialmente no reino do verdadeiramente inesperado, ainda dependem fortemente da inteligência humana, do conhecimento de domínio e de um processo iterativo de aprendizado e adaptação. Projetos que lidam com altos níveis de incerteza exigem flexibilidade, uma cultura de experimentação e, acima de tudo, uma definição clara do que se espera alcançar, mesmo quando se explora o desconhecido. A busca por identificar "unknown unknowns" é válida, mas deve ser temperada com uma compreensão realista de que alguns mistérios só se revelam quando os abordamos com as perguntas certas e a disposição para aprender com o inesperado.
