Repository logo
 
Publication

Automation of the genealogical process: information extraction for GEDCOM files

datacite.subject.sdg04:Educação de Qualidadept_PT
dc.contributor.advisorRocio, Vitor
dc.contributor.authorSchatz, Jan Paulo Borges
dc.date.accessioned2023-05-18T11:10:03Z
dc.date.available2023-05-18T11:10:03Z
dc.date.issued2023-05-16
dc.date.submitted2023-05-18
dc.description.abstractO presente estudo visa investigar as etapas de um sistema construído para o processo de automatização da recolha de informação genealógica: reconhecimento de caracteres a partir de fontes físicas e extração de dados da World Wide Web, recuperação de informações relevantes, extração de relações familiares, inserção dos dados em ficheiros de formato apropriado e, consequentemente, visualização gráfica num formato claro e com o menor número possível de distorções. Campos da informática que evoluíram do estudo do reconhecimento de padrões e da teoria da aprendizagem computacional em inteligência artificial são atualmente utilizados para resolver a tarefa de extração de relações de entidades, o que ajuda muito o processo de investigação genealógica. Alguns trabalhos já procuraram nos últimos anos medir a capacidade de identificar texto e extrair informação útil, otimizando a relação entre a fonte de informação e a sua exibição em diagramas. Uma aplicação promissora é a conversão de texto em formato livre utilizando técnicas de processamento de linguagem natural, seguida de treino de um modelo de aprendizagem de máquina. Finalmente, as relações escolhidas podem ser convertidas em ficheiros GEDCOM que permitem facilmente a criação de árvores genealógicas.pt_PT
dc.description.abstractThe present study aims to investigate the steps of a system built for the process of automating the collection of genealogical information: character recognition from physical sources and extraction of data from the World Wide Web, retrieval of relevant information, extraction of family relationships, insertion of the data into files of appropriate format and, consequently, graphical visualization in a clear format and with as few distortions as possible. Fields of computer science that evolved from the study of pattern recognition and computational learning theory in artificial intelligence are currently used to solve the task of extracting entity relationships, which greatly aids the process of genealogical research. Some works has already sought in recent years to measure the ability to identify text and extract useful information, optimizing the relationship between the source of information and its display in diagrams. A solution that has shown good results is free-form text conversion using natural language processing techniques followed by training of a machine learning model. Finally, the chosen relationships can be converted into GEDCOM files that easily enable the creation of family trees.pt_PT
dc.identifier.citationSchatz, Jan Paulo Borges - Automation of the genealogical process 8Em linha]: information extraction for GEDCOM files. [S.l.]: [s.n.], [2023], 97 p.
dc.identifier.tid203321456
dc.identifier.urihttp://hdl.handle.net/10400.2/13795
dc.language.isoengpt_PT
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/pt_PT
dc.subjectReconhecimento de caracterespt_PT
dc.subjectExtração de informaçãopt_PT
dc.subjectReconhecimento de entidade mencionadapt_PT
dc.subjectAprendizagem de máquinapt_PT
dc.subjectGEDCOMpt_PT
dc.subjectCharacter recognitionpt_PT
dc.subjectInformation extractionpt_PT
dc.subjectNamed entity recognitionpt_PT
dc.subjectMachine learningpt_PT
dc.subjectGenealogical diagrampt_PT
dc.titleAutomation of the genealogical process: information extraction for GEDCOM filespt_PT
dc.title.alternativeAutomatização do processo genealógico: extração de informações para ficheiros GEDCOMpt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsrestrictedAccesspt_PT
rcaap.typemasterThesispt_PT
thesis.degree.nameDissertação de Mestrado em Engenharia Informática e Tecnologia Web em associação com a Universidade de Trás-os-Montes e Alto Douropt_PT

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
TMEITW_Jan Schatz.pdf
Size:
2.81 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.97 KB
Format:
Item-specific license agreed upon to submission
Description: