22.5–22.7 Naturais, Mecanismos e Limites
22.5 Experimentos Naturais e Quase-Experimentos¶
22.5.1 Quando a natureza (ou a política) fornece o experimento¶
E quando não é possível sortear ninguém? Quando seria absurdo (ou ilegal, ou cruel) dividir pessoas em grupos e negar tratamento a metade delas? Nessas horas, o economista faz o que todo bom detetive faz: procura pistas que a história deixou para trás. Às vezes a natureza, a geografia ou a política criam situações que se assemelham a um experimento — como se o destino tivesse feito a randomização por nós. Um grupo é "tratado" por circunstâncias que são plausivamente exógenas — isto é, não correlacionadas com as características dos indivíduos afetados. Esses são os experimentos naturais (natural experiments).
A diferença fundamental em relação aos RCTs é que o pesquisador não controla a aleatorização — ela é fornecida por alguma variação "como se fosse aleatória" no ambiente. A validade do método depende crucialmente da plausibilidade da exogeneidade — uma hipótese que pode ser argumentada e testada parcialmente, mas nunca provada definitivamente.
22.5.2 Diferenças em diferenças (Diff-in-Diff)¶
O método de diferenças em diferenças (DD ou DiD) compara a mudança no resultado de um grupo tratado com a mudança no resultado de um grupo de controle, antes e depois de uma intervenção:
A hipótese-chave é a de tendências paralelas (parallel trends): na ausência do tratamento, os dois grupos teriam seguido trajetórias semelhantes. A primeira diferença (antes/depois) elimina as diferenças fixas entre os grupos; a segunda diferença (tratado/controle) elimina choques comuns que afetam ambos os grupos.
Exemplo clássico: Card e Krueger (1994) — salário mínimo.
David Card e Alan Krueger estudaram o efeito do aumento do salário mínimo em New Jersey (de US$ 4,25 para US$ 5,05 em abril de 1992) sobre o emprego em restaurantes de fast food. O grupo de controle era a Pensilvânia oriental (vizinha, similar economicamente, mas sem aumento do salário mínimo). Usando dados de 410 restaurantes, entrevistados antes e depois do aumento, encontraram que:
O resultado — contraintuitivo para a teoria neoclássica padrão (Capítulo 17, modelo competitivo de mercado de trabalho) — sugeria que o aumento do salário mínimo aumentou levemente o emprego, em vez de reduzi-lo. A explicação mais consistente envolve poder de monopsônio: se empregadores têm algum poder de mercado no mercado de trabalho (a lógica do poder de mercado do Capítulo 15, aplicada ao lado da demanda por trabalho do Capítulo 17), o salário mínimo pode aumentar emprego e salário simultaneamente, movendo o resultado em direção ao ponto competitivo.
Conexão com Capítulo 17
O resultado de Card e Krueger (1994) desafia diretamente o modelo competitivo de mercado de trabalho do Capítulo 17, que prevê que um salário mínimo acima do equilíbrio sempre reduz o emprego. A reconciliação teórica vem do modelo de monopsônio (poder de mercado do empregador): quando a firma enfrenta uma curva de oferta de trabalho ascendente (não perfeitamente elástica), ela paga abaixo do produto marginal do trabalho e emprega menos trabalhadores que o ótimo social. Um salário mínimo moderado pode então aumentar o emprego ao forçar a firma a pagar mais e contratar mais — até o ponto em que o salário mínimo excede o equilíbrio competitivo, quando o efeito negativo tradicional prevalece.
22.5.3 Regressão descontínua (RDD)¶
A regressão descontínua (Regression Discontinuity Design, RDD) explora descontinuidades em regras de elegibilidade: indivíduos logo acima e logo abaixo de um limiar (cutoff) são comparáveis em tudo, exceto pelo recebimento do tratamento. A ideia é que, em uma vizinhança estreita do limiar, a atribuição ao tratamento é "como se fosse aleatória".
Formalmente, seja \(X_i\) a variável de atribuição (running variable) e \(c\) o limiar. O tratamento é \(D_i = \mathbb{1}(X_i \geq c)\). O efeito local do tratamento no limiar é:
isto é, a diferença nos resultados esperados imediatamente acima e abaixo do limiar. A hipótese-chave é a continuidade: todas as variáveis relevantes variam continuamente em torno do limiar, de modo que a única descontinuidade é o tratamento.
Exemplo: Muitos programas sociais brasileiros (incluindo o Bolsa Família) utilizam limiares de renda per capita para determinar a elegibilidade. Famílias com renda logo abaixo do limiar recebem o benefício; famílias logo acima não. Comparando famílias em uma janela estreita em torno do limiar, pesquisadores identificam o efeito causal do programa.
22.5.4 Variáveis instrumentais (IV)¶
O método de variáveis instrumentais (Instrumental Variables, IV) resolve o problema da endogeneidade usando uma variável \(Z\) — o instrumento — que afeta a variável endógena \(X\) mas não afeta diretamente o resultado \(Y\) (exceto através de \(X\)). Formalmente, o instrumento deve satisfazer:
- Relevância: \(\text{Cov}(Z, X) \neq 0\) — o instrumento afeta a variável endógena.
- Exclusão: \(\text{Cov}(Z, \varepsilon) = 0\) — o instrumento não afeta \(Y\) por outros canais além de \(X\).
O estimador IV é:
Exemplo clássico: Angrist e Krueger (1991) — retornos à educação.
Joshua Angrist e Alan Krueger usaram o trimestre de nascimento como instrumento para anos de escolaridade. Nos Estados Unidos, leis de obrigatoriedade escolar exigem que os alunos permaneçam na escola até completar 16 anos. Como a idade de entrada na escola depende do trimestre de nascimento, alunos nascidos no primeiro trimestre podem legalmente abandonar a escola com menos anos de escolaridade do que alunos nascidos no quarto trimestre. O trimestre de nascimento é "como se fosse aleatório" (pais não planejam nascimentos com base em leis de escolaridade compulsória), satisfaz a condição de relevância (afeta anos de escolaridade), e plausivelmente satisfaz a condição de exclusão (não afeta salários por outros canais além da educação).
Os resultados indicaram retornos à educação de 7–10% por ano adicional de escolaridade — consistentes com, mas ligeiramente superiores a, estimativas por mínimos quadrados ordinários.
22.5.5 O Nobel de 2021: a revolução da credibilidade¶
O Nobel de 2021, concedido a Card, Angrist e Imbens, reconheceu não apenas resultados empíricos específicos, mas uma mudança de paradigma na forma como economistas fazem pesquisa empírica. Antes da "revolução da credibilidade" (credibility revolution), a pesquisa empírica em economia frequentemente utilizava regressões com muitas variáveis de controle, sem estratégia clara de identificação causal. Os trabalhos de Card (experimentos naturais), Angrist (variáveis instrumentais) e Imbens (estimação do LATE — Local Average Treatment Effect) estabeleceram um novo padrão: toda estimativa causal deve ser acompanhada de uma estratégia de identificação transparente e plausível.
Intuição Econômica
Em uma frase: A revolução da credibilidade transformou a economia empírica ao exigir que todo estudo causal apresente uma estratégia de identificação transparente — "como você sabe que é causal e não correlação?"
Pense assim: Antes da revolução, economistas frequentemente argumentavam: "Controlei por renda, escolaridade, idade, região, e o coeficiente do salário mínimo sobre emprego é X." A crítica é: "Mas e os fatores que você não controlou? E se esses fatores estão correlacionados com o salário mínimo?" Depois da revolução, o padrão é: "Usei a variação exógena do limiar de New Jersey como quase-experimento, comparando com a Pensilvânia que não teve mudança. As tendências paralelas pré-tratamento confirmam a validade do design." A diferença não é técnica — é de cultura científica.
Por que isso importa: Para o estudante de economia, a mensagem é: nunca confie em um estudo que reporta uma relação causal sem explicar por que a estimativa é causal. Pergunte sempre: "Qual é a estratégia de identificação? Quais são as hipóteses necessárias? Essas hipóteses são plausíveis?"
Box Mundo 22.2 — A crise de replicação em economia experimental
Contexto: Em 2016, Colin Camerer e 23 coautores publicaram no Science os resultados de um ambicioso projeto de replicação: tentaram reproduzir 18 experimentos de laboratório publicados na American Economic Review e na Quarterly Journal of Economics entre 2011 e 2014 — dois dos periódicos mais prestigiosos da profissão.
Dados: Usando amostras consideravelmente maiores que os estudos originais (em média 5 vezes), o projeto replicou o resultado original (com efeito significativo na mesma direção) em apenas 11 dos 18 estudos (61%). Dos 7 que falharam, os efeitos estimados eram em média 33% menores que os originais. Os estudos que replicaram com sucesso tinham, em média, efeitos originais maiores e p-valores mais baixos.
Análise: A taxa de replicação de 61% é preocupante, mas significativamente melhor que em psicologia (36% no projeto de replicação de 2015). As causas incluem: (i) viés de publicação — periódicos publicam preferencialmente resultados "significativos" e "surpreendentes", inflando artificialmente os efeitos; (ii) práticas questionáveis de pesquisa (p-hacking): testar múltiplas especificações até encontrar uma significativa; (iii) amostras pequenas que geram estimativas imprecisas e infladas. A resposta da profissão inclui pré-registro de hipóteses (registrar o plano de análise antes de ver os dados), relatórios registrados (registered reports), e exigência de replicação como condição de publicação.
Fonte: Camerer, C. F. et al. 2016. Evaluating Replicability of Laboratory Experiments in Economics. Science, 351(6280), 1433–1436.
22.6 Desenho de Mecanismos Experimentais¶
Até aqui, usamos experimentos como um espelho: eles refletem a realidade de volta, mostrando se nossas teorias capturam ou não o comportamento humano. Agora, a lógica se inverte. Em vez de perguntar "o mundo funciona como o modelo prevê?", perguntamos "como desenhar o mundo para que funcione melhor?" É a diferença entre um biólogo que observa a natureza e um engenheiro que constrói uma ponte. Nesta seção, usamos experimentos não apenas para testar teorias, mas para desenhar instituições econômicas melhores — leilões, mercados e mecanismos de alocação.
22.6.1 Testando a teoria de leilões em laboratório¶
A teoria de leilões (Capítulo 9c) faz previsões precisas sobre como jogadores devem se comportar em diferentes formatos de leilão. O leilão de segundo preço (Vickrey), por exemplo, prevê que a estratégia dominante é dar lance igual ao verdadeiro valor. O leilão de primeiro preço prevê bid shading — lances abaixo do valor verdadeiro, com a margem de sombreamento dependendo do número de competidores e da distribuição de valores.
Os experimentos de laboratório testaram essas previsões extensivamente:
-
Leilão de segundo preço: os participantes tendem a dar lances próximos do valor verdadeiro, mas com "excesso de lance" (overbidding) modesto. O overbidding é mais pronunciado quando as apostas são baixas e os participantes são inexperientes — consistente com uma combinação de aversão a perda e imprecisão nas estratégias.
-
Leilão de primeiro preço: o bid shading observado é consistente com a teoria, mas os lances são sistematicamente mais altos que a previsão do equilíbrio de Nash com agentes neutros ao risco. A explicação mais aceita é a aversão ao risco: participantes avessos ao risco (Capítulo 7) dão lances mais altos para aumentar a probabilidade de vencer, sacrificando lucro esperado por segurança.
-
Teorema de equivalência de receita: a previsão teórica de que leilões de primeiro e segundo preço geram a mesma receita esperada (com agentes neutros ao risco) é sistematicamente violada em laboratório: leilões de primeiro preço geram receita maior, consistente com a aversão ao risco dos participantes.
-
Maldição do vencedor (winner's curse): em leilões de valor comum (todos os licitantes valorizam igualmente o bem, mas estimam seu valor com erro), o vencedor é tipicamente aquele com a estimativa mais otimista — e portanto mais enviesada. Experimentalmente, a maldição do vencedor é pronunciada: participantes frequentemente pagam mais do que o bem vale, especialmente quando há muitos competidores.
22.6.2 Design de mercados: troca de rins e matching¶
O Prêmio Nobel de 2012 foi concedido a Alvin Roth (junto com Lloyd Shapley) "pela teoria de alocações estáveis e a prática de desenho de mercados". Roth é talvez o melhor exemplo de economista que usou tanto a teoria formal quanto a experimentação para resolver problemas reais de desenho institucional.
O caso mais emblemático é o sistema de troca de rins (kidney exchange). O problema: muitos pacientes que precisam de transplante renal têm doadores vivos dispostos (geralmente familiares), mas o doador é incompatível com o receptor específico. A solução de mercado (comprar e vender rins) é proibida por lei na maioria dos países, por razões éticas. A solução de Roth e colegas foi desenhar um mecanismo de troca pareada: se o doador de A é compatível com B, e o doador de B é compatível com A, os doadores trocam — A recebe o rim do doador de B e vice-versa. O sistema foi expandido para cadeias maiores (A→B→C→...→A) e para cadeias abertas iniciadas por doadores altruístas.
Box Mundo 22.3 — Alvin Roth e a troca de rins
Contexto: O New England Program for Kidney Exchange (NEPKE), desenhado por Roth, Sönmez e Ünver (2004), formalizou o primeiro mecanismo de troca renal sistematizado nos Estados Unidos. O algoritmo resolve um problema de matching (emparelhamento) com restrições de compatibilidade — formalmente análogo ao problema de casamento estável de Gale e Shapley (1962), mas com restrições médicas adicionais.
Dados: Nos Estados Unidos, o sistema de troca de rins facilitou mais de 6.000 transplantes até 2024. Antes do sistema, esses pacientes teriam permanecido em uma lista de espera de 5–10 anos para um rim de doador falecido — com taxa de mortalidade na fila de 5–10% ao ano. A expansão para cadeias longas (iniciadas por doadores altruístas) multiplicou o número de transplantes possíveis: uma única cadeia pode beneficiar dezenas de pares incompatíveis.
Análise: O sucesso do sistema de troca de rins ilustra como o desenho de mecanismos (Capítulo 9c) e a teoria de matching podem salvar vidas literalmente. O mecanismo resolve uma falha de mercado dupla: (i) a proibição legal de transações monetárias elimina o mecanismo de preços; (ii) a incompatibilidade bilateral impede trocas diretas. O algoritmo de Roth maximiza o número de transplantes possíveis, respeitando todas as restrições médicas e éticas. O caso demonstra que a microeconomia não é apenas descritiva — é uma ferramenta de engenharia social.
Fonte: Roth, A. E.; Sönmez, T.; Ünver, M. U. 2004. Kidney Exchange. Quarterly Journal of Economics, 119(2), 457–488.
Exercício Resolvido 22.3 — Overbidding em leilão de segundo preço
Enunciado. Em um leilão de segundo preço com dois participantes, os valores são sorteados independentemente de uma distribuição uniforme em \([0, 100]\). O jogador 1 tem valor \(v_1 = 60\).
(a) Mostre que, no equilíbrio de Nash, a estratégia dominante é \(b_i = v_i\) (dar lance igual ao valor).
(b) Suponha que o jogador 1 dê um lance \(b_1 = 70 > v_1 = 60\) (overbidding). Calcule a probabilidade de que esse desvio cause prejuízo.
(c) Calcule a perda esperada condicional ao evento em que o overbidding causa prejuízo.
Solução.
(a) Estratégia dominante.
No leilão de segundo preço, o vencedor paga o segundo maior lance. Suponha que o jogador 1 dê lance \(b_1\).
- Se \(b_1 > b_2\): jogador 1 vence e paga \(b_2\). Seu payoff é \(v_1 - b_2\).
- Se \(b_1 < b_2\): jogador 1 perde. Payoff = 0.
Se \(b_1 > v_1\) (overbidding): o jogador vence em casos adicionais onde \(v_1 < b_2 < b_1\), mas nesses casos paga \(b_2 > v_1\) e tem prejuízo. Se \(b_1 < v_1\) (underbidding): o jogador perde em casos onde \(b_1 < b_2 < v_1\), nos quais teria tido lucro positivo. Portanto, \(b_1 = v_1\) é a estratégia que nunca é pior — e às vezes é estritamente melhor — que qualquer outra. É estratégia fracamente dominante.
(b) Probabilidade de prejuízo.
O overbidding causa prejuízo quando o jogador 1 vence mas paga mais que seu valor: \(60 < b_2 < 70\). Como \(b_2 = v_2 \sim U[0, 100]\):
(c) Perda esperada condicional.
Condicional a \(v_2 \in (60, 70)\), o valor de \(v_2\) é uniforme em \([60, 70]\). O prejuízo é \(v_2 - 60\). A perda esperada condicional é:
A perda esperada (incondicional) é: \(0{,}10 \times 5 = 0{,}50\). Embora o prejuízo esperado do overbidding seja pequeno (R$ 0,50 em expectativa), ele é estritamente positivo — confirmando que \(b_1 = v_1\) é a melhor resposta.
22.7 Limites e Controvérsias¶
Toda revolução científica chega ao momento em que precisa olhar no espelho e fazer autocrítica — e a revolução experimental em economia não é exceção. Depois de três Prêmios Nobel, centenas de RCTs e milhares de sessões de laboratório, a pergunta incômoda é inevitável: será que estamos medindo o que pensamos estar medindo? Nesta seção final, examinamos três fronts de crítica que todo pesquisador experimental deve enfrentar: a replicabilidade dos resultados, o alcance dos RCTs e as questões éticas da experimentação com seres humanos.
22.7.1 A crise de replicação¶
Conforme discutido no Box Mundo 22.2, a taxa de replicação em economia experimental é de aproximadamente 61% (Camerer et al., 2016) — melhor que em psicologia, mas longe do ideal. Cabe aprofundar as causas e as respostas da profissão:
Viés de publicação (publication bias). Periódicos acadêmicos preferem resultados "significativos" e "surpreendentes". Estudos que encontram efeito nulo (null results) são menos publicáveis. Isso cria um viés sistemático: a literatura publicada sobrestima a magnitude dos efeitos.
Práticas questionáveis de pesquisa (questionable research practices). Incluem: (i) p-hacking — testar múltiplas especificações até encontrar uma significativa; (ii) HARKing (Hypothesizing After Results are Known) — formular hipóteses depois de ver os resultados, apresentando-as como se fossem a priori; (iii) exclusão seletiva de observações (outlier fishing) — remover dados que "não se encaixam" sem critério pré-estabelecido.
Soluções em implementação. A profissão respondeu com várias medidas: (i) pré-registro — depositar o plano de análise em um registro público (como o AEA RCT Registry) antes de ver os dados; (ii) relatórios registrados (registered reports) — periódicos avaliam o desenho do estudo antes da coleta de dados e comprometem-se a publicar independentemente dos resultados; (iii) compartilhamento de dados e código — permitir que outros pesquisadores verifiquem e repliquem os resultados.
22.7.2 A crítica de Deaton aos RCTs¶
Angus Deaton (Nobel de 2015) é o crítico mais proeminente da "RCT-mania" na economia do desenvolvimento. Suas críticas incluem:
-
Validade externa limitada. Um RCT que funciona no Quênia pode não funcionar na Índia — ou mesmo em outra região do Quênia. A randomização garante validade interna, mas não externa. Generalizações requerem teoria.
-
Atomismo. RCTs testam intervenções pontuais ("distribuir mosquiteiros", "dar livros") mas não capturam efeitos de equilíbrio geral. Se todos os aldeões recebem microcrédito, os preços e salários locais mudam — e o efeito para cada um difere do efeito medido quando apenas alguns recebem.
-
Ateoricismo. Na visão de Deaton, a obsessão com identificação causal "limpa" levou a uma geração de economistas que sabe medir efeitos mas não sabe explicá-los. Um RCT pode mostrar que desparasitação aumenta frequência escolar — mas sem um modelo teórico, não sabemos por que (saúde? nutrição? atenção?) nem se o efeito persistirá quando o contexto mudar.
-
Não existe hierarquia de evidência. Deaton questiona a noção de que RCTs são o "padrão-ouro" da pesquisa empírica. Argumenta que diferentes perguntas requerem diferentes métodos — e que um estudo observacional com boa teoria pode ser mais informativo que um RCT sem teoria. A hierarquia de evidência da medicina (RCT > estudo observacional > opinião de especialista) não se transpõe automaticamente para a economia.
22.7.3 Questões éticas¶
A experimentação com seres humanos levanta questões éticas incontornáveis, reguladas por comitês de ética em pesquisa (CEPs no Brasil, IRBs nos Estados Unidos):
Consentimento informado. Em experimentos de laboratório e RCTs, os participantes devem ser informados sobre os riscos e benefícios da pesquisa e consentir voluntariamente. Mas em experimentos de campo natural (Seção 22.3.1), os participantes não sabem que estão em um experimento — tornando o consentimento informado impossível. O argumento a favor é que o anonimato é essencial para evitar efeitos de demanda; o argumento contra é que as pessoas têm o direito de saber quando estão sendo estudadas.
Negação de tratamento. Em RCTs, o grupo de controle não recebe a intervenção. Se a intervenção é potencialmente benéfica (vacinas, mosquiteiros, microcrédito), negar acesso ao grupo de controle levanta dilemas éticos graves. A resposta padrão é a randomização por fases: todos recebem o tratamento eventualmente, mas em ordem aleatória — permitindo comparação entre tratados "precoces" e "tardios".
Assimetrias de poder. RCTs em países em desenvolvimento frequentemente envolvem pesquisadores de universidades ricas do Norte Global estudando populações vulneráveis do Sul Global. Há um risco real de que a agenda de pesquisa seja determinada pelos interesses acadêmicos dos pesquisadores (publicar no AER) e não pelas necessidades das comunidades. A resposta inclui parcerias genuínas com pesquisadores e instituições locais, e retorno dos resultados às comunidades.
Box Brasil 22.2 — O Programa Mais Médicos como experimento natural
Contexto: O Programa Mais Médicos (PMM), lançado em julho de 2013, alocou médicos — majoritariamente cubanos, via cooperação com o governo de Cuba — a municípios brasileiros com carência de profissionais de saúde, especialmente em áreas remotas e periferias urbanas. Em seu auge, o programa contava com mais de 18.000 médicos atuando em 4.058 municípios (73% dos municípios brasileiros).
Dados: Estudos quase-experimentais (Carrillo e Feres, 2019; Santos et al., 2020) documentaram: (i) aumento de 33% nas consultas de atenção primária nos municípios tratados; (ii) redução de 3,2% nas internações por condições sensíveis à atenção primária (ICSAP); (iii) redução na mortalidade infantil de 1,5 óbitos por 1.000 nascidos vivos nos municípios com maior exposição; (iv) efeitos concentrados nos municípios mais vulneráveis (quintil inferior do IDHM).
Análise: A avaliação do PMM ilustra a aplicação dos métodos quase-experimentais discutidos na Seção 22.5. A atribuição de médicos seguiu critérios de vulnerabilidade municipal (índice composto do Ministério da Saúde), criando uma descontinuidade explorável: municípios logo acima e logo abaixo do limiar de elegibilidade são semelhantes em características observáveis, diferindo apenas na participação no programa. Essa é a lógica da regressão descontínua (Seção 22.5.3). O DiD complementa ao comparar a evolução temporal de municípios tratados e não tratados. Os desafios metodológicos incluem: (i) efeito de transbordamento (pacientes de municípios não tratados podem buscar atendimento nos tratados); (ii) viés de seleção residual (municípios que aderiram ao PMM podem diferir sistematicamente); (iii) a saída dos médicos cubanos em 2018 criou um segundo "choque" que permite estimar efeitos de reversão.
Para refletir: A saída abrupta dos médicos cubanos em novembro de 2018 constitui um "experimento natural de reversão". Se os indicadores de saúde pioraram nos municípios que perderam médicos, isso reforça a causalidade do efeito original. Que tipo de design empírico você usaria para estimar esse efeito de reversão?
Começamos perguntando "onde estão os experimentos?" — e a resposta percorreu salas de informática com estudantes, campos de arroz na Índia, creches em Israel e fronteiras estaduais nos Estados Unidos. De Chamberlin a Duflo, a economia aprendeu a testar suas teorias com o mesmo rigor que a medicina usa para testar seus remédios. O método não é perfeito — a crise de replicação, os limites éticos e a tensão entre validade interna e externa lembram que medir o comportamento humano nunca será tão limpo quanto medir a velocidade da luz. Mas é incomparavelmente melhor do que não medir.
O laboratório do economista — de Chamberlin a J-PAL. No próximo capítulo, aplicamos essas ferramentas ao mercado mais íntimo de todos: a saúde.