- Acesso à Informação
- Início
- O Ipea
- Ouvidoria
- Fale Conosco
- Agenda de Autoridades
- Imprensa
- Presidência
- Publicações
![]()
TD 2420 - O Desafio do Pareamento de Grandes Bases de Dados: mapeamento de métodos de record linkage probabilístico e diagnóstico de sua viabilidade empírica Peng Yaohao e Lucas Ferreira Mation, Rio de Janeiro, outubro de 2018
Este trabalho verificou o desempenho preditivo de algoritmos de pareamento de registros (record linkage – RL) probabilístico para a integração de bases de dados reais de grande porte, avaliando os efeitos da definição das variáveis de blocking (blocagem ou indexação), de funções de distanciamento de strings (sequência de caracteres) e de algoritmos de pareamento fonético em relação à qualidade das previsões e à complexidade computacional. Realizou-se um levantamento bibliográfico dos principais métodos de RL determinístico e probabilístico, bem como de avanços recentes aliando técnicas de machine learning (aprendizado de máquinas) e principais pacotes e implementações disponíveis em linguagem open-source (código aberto) R.1 Os resultados podem fornecer heurísticas para problemas de integração de registros administrativos em escala nacional e são de potencial valia para a formulação e a avaliação de políticas públicas.
|
Todo o conteúdo deste site está publicado sob a Licença Creative Commons Atribuição 2.5 Brasil.
|