Logo do repositório
 

Mestrado em Estatística, Matemática e Computação | Master's Degree in Statistics, Mathematics and Computation - TMEMC

URI permanente para esta coleção:

Navegar

Entradas recentes

A mostrar 1 - 10 de 86
  • Monitorização de operações de risco no jogo online: o exemplo do branqueamento de capitais
    Publication . Estanque, Nuno Alexandre Apolónia do; Carvalho, Alda
    O setor do jogo online é frequentemente identificado como vulnerável ao branqueamento de capitais e financiamento do terrorismo (BC/FT), em virtude da sua elevada frequência transacional. Esta dissertação propõe uma abordagem de aprendizagem supervisionada para apoiar a monitorização do risco, formulando o problema como uma classificação binária ao nível do jogador. Com base em dados reais, construíram-se perfis comportamentais agregados que sintetizam a atividade financeira dos jogadores. A modelação recorreu ao algoritmo Random Forest, combinado com validação cruzada estratificada, por forma a lidar com o forte desequilíbrio entre classes. Os resultados evidenciam a eficácia do modelo na identificação e seleção dos casos mais relevantes, permitindo concentrar uma proporção significativa de jogadores já sinalizados nas primeiras posições de uma lista ordenada por risco. Ao mesmo tempo, a definição de critérios de decisão conservadores mostrou-se coerente com a exigência regulatória de minimizar os casos de falsos negativos. A análise de importância das variáveis indica ainda que os volumes financeiros movimentados e a presença de valores elevados desempenham um papel central na diferenciação dos perfis de risco. Apesar das limitações associadas a restrições de confidencialidade e a potenciais imperfeições na rotulagem dos dados, conclui-se que a abordagem proposta constitui um contributo relevante para o apoio à monitorização do risco de BC/FT no jogo online, complementando os mecanismos tradicionais de controlo e os processos de análise humana.
  • Modelação estatística aplicada à avaliação da condição de turbinas eólicas com base em dados SCADA
    Publication . Nhantingo, José Jonas; Carvalho, Alda; Silva, Tiago Alexandre Narciso da
    A monitorização do estado de turbinas eólicas a partir de dados SCADA, constitui um desafio significativo devido à elevada variabilidade operacional, à natureza não estacionária dos regimes do vento e à ausência de registos históricos de falhas devidamente rotulados. Neste contexto, este trabalho propõe uma abordagem probabilística integrada para a modelação do estado de condição de turbinas eólicas sob incerteza, combinando regressão quantílica e modelos bayesianos orientados à detecção de novidade. O termo “deteção de novidade” foi adoptado na formulação de Bishop (1994), uma vez que o objetivo central não é era identificação de falhas previamente conhecidas, mas sim a identificação de padrões de comportamento que se desviam do regime normal aprendido, podendo ou não estar associados a condições de degradação ou falha. Esta formulação permite uma abordagem mais robusta e flexível, especialmente adequada a ambientes industriais onde a definição explícita de classes de falha é limitada ou inexistente. Neste trabalho assume-se que não há informação prévia fiável sobre a frequência relativa de falhas, devido à ausência de registos históricos completos e de rotulagem supervisionada nos dados SCADA. Numa primeira etapa, a regressão quantílica é aplicada à curva de potência com o objectivo de caracterizar o comportamento operacional esperado da turbina em diferentes regimes de vento, permitindo a definição de bandas estatísticas de funcionamento normal por meio de quantis inferior e superior. Esta etapa possibilita uma pré-classificação robusta de dados SCADA, mitigando os efeitos de heterocedasticidade, valores extremos e elevada variabilidade operacional. Com base neste enquadramento, o problema de controlo de condição é formulado como um problema de classificação binária, no qual o estado de saúde da turbina é modelado como uma variável latente. São então aplicados e comparados três modelos estatísticos para estimar a verosimilhança dos dados sob hipótese de funcionamento normal: (i) um método dos bins baseado em intervalos de velocidade do vento e limites quantílicos, (ii) modelos baseados na distribuição normal multivariada e (iii) modelos de cópulas, incluindo as cópulas Gaussianas e t-Student, considerando versões estáticas e com actualização temporal. Assumindo probabilidades a priori uniformes, a decisão de classificação baseia-se exclusivamente na improbabilidade conjunta das observações face ao regime operacional saudável, seguindo o princípio de detecção de novidade. O desempenho dos métodos é avaliado por meio de métricas estatísticas clássicas de classificação, permitindo uma comparação sistemática da sua capacidade de identificar estados normais e anómalos. Os resultados mostraram que métodos simples baseados em limiares por bins são insuficientes para captar a complexidade das dependências multivariadas dos dados SCADA. Em contraste, os modelos probabilísticos multivariados apresentam melhorias significativas em métricas como acurácia, especificidade, F1- score e coeficiente de correlação de Matthews, evidenciando maior robustez em ambientes ruidosos e não estacionários. A incorporação da dependência temporal (one-step-ahead), revelou-se crucial para a detecção precoce de trajectórias anómalas e padrões evolutivos de degradação, destacando os modelos baseados na distribuição normal multivariada one-step-ahead como a abordagem mais eficaz para o controlo de condição e suporte à manutenção preditiva de turbinas eólicas.
  • Avaliação de estimadores clássicos do parâmetro de cauda da distribuição de pareto generalizada usando delineamentos experimentais
    Publication . Gonçalves, João Miguel Fernandes; Oliveira, Teresa A.
    As Simulações de Monte Carlo (SMC) são ferramentas fundamentais na inferência estatística, embora o seu caráter aleatório e não estruturado exija frequentemente um elevado custo computacional para garantir a convergência. Esta dissertação explora a integração de Delineamento Experimental (DOE), especificamente Delineamentos em Quadrados Greco-Latinos (QGL), Hipercubos Latinos (HL) e Metodologia de Superfície de Resposta (RSM), como forma de optimizar a avaliação do desempenho de estimadores do Parâmetro de forma (ξ ) da Distribuição de Pareto Generalizada (GPD). Foram analisados os estimadores Bayesiano, o Método da Máxima Verosimilhança (MLE), de Pickands, Metodo dos Momentos (MOM) e o método de Momentos Ponderados pela Probabilidade (PWM). Os resultados demonstram que a abordagem estruturada permitiu não apenas identificar o estimador Bayesiano como o mais preciso e o MLE como o mais robusto nos intervalos considerados, mas também quantificar sistematicamente o impacto de factores como o tamanho amostral e os parâmetros da distribuição na variabilidade do erro. Conclui-se que a integração de DOE com SMC poderá contribuir para a eficiência amostral e a interpretabilidade dos resultados e desta forma complementar uma simulação puramente aleatória, especialmente em contextos de elevada complexidade computacional.
  • Análise estatística espacial e previsão clínica de aneurismas da aorta torácica ascendente
    Publication . Oviedo Rodríguez, Katalina; Carvalho, Alda; Xavier, José Manuel Cardoso
    A deteção precoce do risco de rutura de aneurismas da aorta permite intervir cirurgicamente em tempo útil. O tamanho do aneurisma é avaliado pelo diâmetro; segundo algumas diretrizes clínicas, recomenda-se a reparação do aneurisma para diâmetros superiores a 50 mm em mulheres e superiores a 55 mm em homens. No entanto, tem-se evidenciado que este parâmetro não é suficiente como indicador de cirurgia. Neste trabalho procura-se contribuir para o estudo deste problema; para tal, realiza-se uma análise exploratória com bases de dados de doentes com aneurismas localizados na aorta ascendente. Aplicam-se técnicas de estatística espacial e de Machine Learning para a caraterização. Relativamente às técnicas de estatística espacial, utilizou-se o cálculo de variogramas para o estudo espacial dos diâmetros máximos na aorta ascendente e a técnica de krigagem ordinária para a estimação de novos diâmetros máximos. No âmbito das técnicas de Machine Learning, recorreu-se, no caso da aprendizagem supervisionada, à regressão logística e, na aprendizagem não supervisionada, ao método k-means, com o objetivo de estudar se, a partir das variáveis clínicas, seria possível determinar se os doentes necessitam ou não de cirurgia. Verificou-se que o variograma sugere a localização do aneurisma na aorta e que, a partir dos seus parâmetros, é possível estudar propriedades biomecânicas da aorta, como a elasticidade e a rigidez local. Por sua vez, a técnica de krigagem ordinária revelou-se útil na estimação de diâmetros máximos em instantes que não foram objeto de amostragem. Além disso, a análise das variáveis clínicas permitiu concluir que o diâmetro máximo é a variável mais relevante na decisão de operar, em consonância com a literatura e com as recomendações atualmente vigentes.
  • Análise estatística: perfil e factores de risco da mortalidade causada por doenças infecciosas em Maputo
    Publication . Manjate, Fernando André Fernando; Nunes, Catarina S.
    As doenças infecciosas com destaque para malária, tuberculose e HIV/SIDA constituem um grande problema de saúde pública para Moçambique, pelos custos empreendidos e pelo nível de mortalidade. Neste sentido, com base nestas doenças e nos dados de 2020 a 2022, a presente dissertação tem como objectivo central compreender o perfil e os factores de risco da mortalidade causada por doenças infecciosas no Hospital Central de Maputo. Para tal, a metodologia baseou-se numa análise estatística recorrendo essencialmente a técnicas da Estatística Descritiva e a Regressão Logística e tendo por base uma amostra de 687 doentes dos quais 364 tiveram alta e 323 foram óbitos. O perfil da amostra é marcado por uma taxa de mortalidade de 24% sendo a malária a maior causa (40%), género feminino (51,7%), idades entre 25 e 49 anos (52,9%), casados (44,7%), consumidores de álcool (68%, com 15 ou mais anos de idade), não fumantes (70%, com 15 ou mais anos de idade), ser proveniente do Grande Maputo (43,1%), não sofrer de nenhuma doença crónica (63,9%) e os que nunca tiveram um internamento anteriormente (59,1%). Quanto aos factores de risco comparou-se os critérios Enter (em duas fases), Forward LR e Backward LR, todos apresentam boas capacidades preditivas e de descriminação, confiabilidade substancial e ajustamentos adequados; os últimos dois apresentam resultados iguais e destacam-se como os de melhor desempenho pela simplicidade e menor razão de verosimilhança, tendo-se identificado os seguintes factores: ser casado, ser proveniente do centro e norte, ser fumante e sofrer duma doença crónica associada.
  • Variabilidade e quebras de estruturas em séries temporais: comparação de métodos e aplicação a séries económico-financeiras
    Publication . Moro, Pedro Guilherme Frade; Ramos, Maria do Rosário
    Nesta dissertação, exploramos a análise de séries temporais financeiras, focando em métodos clássicos e mais recentes. Investigámos a deteção de pontos de mudança e a previsão de volatilidade em séries como a taxa de juro SELIC, os preços do ouro, os ETFs (fundos negociados em bolsa) e as criptomoedas. Realizámos uma análise de pontos de mudança, utilizando os métodos PELT (Pruned Exact Linear Time) e SONDE (Self Organizing Neural Network for Detecting Novelties). Foram detetadas diversas rupturas na estrutura da série, consistentes com eventos de mercado conhecidos como a crise financeira de 2008 e a pandemia de COVID-19. Utilizámos modelos como SARIMA, Filtro de Kalman e GARCH, diretamente sobre as séries e sobre as suas componentes obtidas pela decomposição por modo empírico (EMD). Observámos que as séries de volatilidade financeira apresentam diversos desafios na aplicação de um único método a toda a série, entre outros motivos pela quantidade de pontos de mudança, no entanto uma abordagem em janela móvel pode gerar resultados satisfatórios. Chama-nos a atenção o mau desempenho do algoritmo GARCH em relação ao SARIMA e ao Filtro de Kalman na nossa abordagem. Discutimos a aplicação destes resultados em séries temporais reais do mercado financeiro e as suas aplicações práticas neste mesmo contexto, tais como a gestão de carteiras e a gestão de relações com clientes. A investigação sugere que há muito a explorar nesta área dinâmica e desafiante.
  • Modelação estatística aplicada a admissão dos estudantes na Universidade de São Tomé e Príncipe
    Publication . Nascimento, Wadiley Sousa do; Carolino, Elisabete Teresa M. Almeida; Ramos, Maria do Rosário
    O presente estudo investiga alguns fatores que influenciam a admissão de estudantes na Universidade de São Tomé e Príncipe (USTP) por meio da aplicação de técnicas avançadas de análise estatística, de forma a proporcionar insights que possam conduzir a melhorias nas práticas de selecção e a formulação de políticas mais inclusivas. Dada a heterogeneidade das disciplinas que compõem os cursos do ensino secundário, esta análise contemplou duas situações distintas: uma para os alunos de Letras (História como nuclear) e outra para os alunos de Ciências (Matemática como nuclear). Os resultados revelaram que variáveis como a idade, género, notas em disciplinas específicas (Biologia, Física/Química, Língua Portuguesa, Matemática, História, Direito, Psicologia/Sociologia), e a escola de origem dos candidatos possuem efeitos estatisticamente significativos tanto na média final do ensino secundário quanto na probabilidade de admissão em diferentes departamentos da universidade. A análise indicou que mais de 75% da variação na média do ensino secundário pode ser explicada pelas variáveis incluídas no modelo de Regressão Linear Múltipla. Com base nos dados do período em estudo, verificou-se que no grupo dos alunos admitidos em cursos de Ciências a média final diminui em média 0,211 pontos com o aumento da idade e que, inversamente, a média final dos alunos dos cursos de Letras aumenta 0,009 pontos, em média, com o aumento da idade. A Regressão Logística Multinomial mostrou que os modelos que incorporaram as variáveis idade, média final do 12º ano, notas em Matemática, Língua Portuguesa, História, Direito, Física/Química, Sociologia/Psicologia, género, residência e as escolas onde os estudantes concluíram o ensino secundário contribuem significativamente para a discriminação dos cursos afetos aos departamentos da USTP. Igualmente, mostrou que a probabilidade de inscrição em determinados cursos diminui ou aumenta significativamente com base nas variáveis analisadas. O estudo realizado mostrou que a modelação estatística é uma ferramenta eficaz para compreender e melhorar o processo de admissão na USTP, fornecendo insights valiosos para a tomada de decisões e contribuindo para a formação de um corpo discente mais diversificado e talentoso. Além disso, os modelos revelaram que mais 60% dos estudantes matricularam-se nos cursos afetos aos departamentos onde as probabilidades de admissão eram mais altas.
  • Aplicação de métodos de estatística espacial e multivariada na análise da qualidade da àgua no Sul do Mar do Norte
    Publication . Ody, Christopher Ricardo; Carolino, Elisabete Teresa da Mata Almeida; Ramos, Maria do Rosário
    A região do Sul do Mar do Norte desempenha um papel vital tanto para a economia quanto para a sociedade dos países circunvizinhos. A análise da qualidade da sua água é um processo crítico que envolve a avaliação de parâmetros físicos, químicos e biológicos, essencial para garantir a sustentabilidade ambiental e a saúde das comunidades locais e ecossistemas marinhos. Utilizando métodos de Estatística Multivariada e Espacial, esta investigação busca identificar padrões e autocorrelações espaciais para avaliar a qualidade da água naquela região. Os dados utilizados foram coletados em cruzeiro científico realizado em dezembro de 2020 a bordo da embarcação RV Meteor, liderado por uma equipe de pesquisadores alemães. Os dados brutos passaram por pré-tratamento orientado pelo protocolo de Controle de Qualidade de Dados da SeaDataNet, um projeto internacional de oceanografia destinado a disponibilizar dados marítimos europeus. Foram realizados testes de pico e gradiente, além da padronização dos dados e imputação através de interpolação de ponderação pela distância inversa. Para um melhor entendimento da área estudada, os dados foram agregados por zonas para determinadas análises e, por vezes, foram considerados globalmente. Foi realizada uma análise exploratória de dados espaciais (AEDE) de modo a resumir suas principais características. Também realizou-se uma redução da dimensionalidade dos dados originais através da análise de componentes principais como ferramenta auxiliar à análise espacial. A autocorrelação espacial foi analisada através do cálculo da Estatística 𝐼 de Moran global e local. As conclusões indicaram uma autocorrelação espacial significativa para todas as variáveis consideradas nas zonas de águas doce e um expressivo achatamento da amplitude das variáveis nas zonas de mar aberto, o que possivelmente ocasionou a inexistência de autocorrelação espacial significativa naquelas zonas.
  • Metodologias estatísticas na avaliação da qualidade da prestação de serviços no ensino superior aplicando modelo SERVQUAL: perceção dos estudantes do Instituto Superior Dom Bosco
    Publication . Parruque, Castigo Jossefa; Ferreira, Dário Jorge; Oliveira, Teresa
    Este estudo tem como objetivo investigar a qualidade dos serviços educacionais no Instituto Superior Dom Bosco (ISDB), em Maputo, Moçambique, utilizando questionário na Escala de Likert e, como ferramenta de avaliação, o modelo SERVQUAL. Ao analisarmos as dimensões do modelo SERVQUAL individualmente na avaliação da qualidade de serviços de ensino superior pelo ISDB, verificamos que as áreas de Tangibilidade, Confiabilidade, Presteza e Empatia obtiveram pontuações iguais ou superiores a 3.88. Isto reflete a perceção dos estudantes sobre a qualidade dos serviços prestados pelo ISDB, em comparação com as suas expectativas. A qualidade da educação superior é um fator determinante para a formação e o sucesso dos estudantes, e a utilização do modelo SERVQUAL, que engloba as dimensões tangibilidade (a aparência física das instalações, equipamentos e pessoal), confiabilidade (a capacidade de prestar o serviço prometido de forma confiável e precisa), capacidade de resposta (a vontade de ajudar os estudantes e fornecer um serviço rápido), segurança (o conhecimento e a cortesia dos funcionários e sua capacidade de transmitir confiança e credibilidade) e empatia (a atenção individualizada fornecida aos estudantes e a disposição para entender suas necessidades), oferece uma estrutura abrangente para a análise. Uma amostra de 288 estudantes de diferentes cursos, onde foram considerados género, ano, regime e grau de frequência no ISDB, foi selecionada para participar da pesquisa. Os participantes responderam a um questionário baseado na Escala de Likert de 5 pontos, avaliando sua perceção em relação a cada item das cinco dimensões do modelo SERVQUAL. Os dados recolhidos foram submetidos a análises estatísticas descritivas e inferenciais. Os resultados apontaram para uma avaliação positiva da qualidade dos serviços educacionais no geral, com médias de concordância próximas de 4 em todas as dimensões: Tangibilidade, confiabilidade, presteza e empatia. Estas dimensões obtiveram a maior pontuação média no desempenho do ISDB na prestação de serviços com qualidade segundo os padrões do modelo SERVQUAL, em comparação com a pontuação média obtida segundo as expetativas dos estudantes, isto é, os estudantes percebem o serviço a um nível satisfatório na aparência física das instalações, nos equipamentos, funcionários da instituição, na capacidade e na vontade de ajudar que o ISDB tem, de prestar o serviço prometido de forma confiável, precisa e rápida e na disposição com que o ISDB dá atenção individualizada e procura atender as necessidades dos estudantes. A dimensão "Segurança" apresentou a menor pontuação média no desempenho do ISDB, em comparação com a pontuação média obtida na avaliação de qualidade de serviços segundo as expetativas dos estudantes, indicando possíveis oportunidades de melhoria em relação ao conhecimento e à cortesia dos funcionários e sua capacidade de transmitir confiança e credibilidade nos estudantes. Na inferência estatística, com uma significância de 5%, os resultados indicaram que a satisfação global em relação ao serviços educacionais, segundo as expetativas e o desempenho nas dimensões do modelo SERVQUAL, não variou de acordo com a faixa etária, o curso, a frequência e o regime dos estudantes. No entanto, variou significativamente segundo o ano de frequência. As expetativas dos estudantes e o desempenho do ISDB na prestação de serviços de qualidade, segundo a perceção dos estudantes, influenciaram positivamente e negativamente, respetivamente, na satisfação global. Os dados foram provenientes das expetativas e do desempenho do ISDB foram adequados (KMO acima de 0.9) para análise fatorial (AF). A fiabilidade e consistência interna dos fatores retidos na AF revelaram-se excelentes, com um valor do coeficiente alfa de Cronbach superior a 0.9. A pesquisa enfatiza a relevância de avaliar constantemente a qualidade da educação superior para garantir aprimoramentos contínuos. A combinação da Escala de Likert com o modelo SERVQUAL proporciona uma abordagem completa para a avaliação da qualidade, permitindo que as instituições de ensino identifiquem pontos fortes e áreas de desenvolvimento. Compreender as perceções dos estudantes é crucial para aprimorar a experiência académica e garantir que os serviços educacionais atendam às necessidades e expetativas dos estudantes.
  • Aplicação da análise espectral singular à análise de risco
    Publication . Sarmento, Carla Alexandra da Silva; Oliveira, Amílcar
    A análise de risco é um campo de vital importância para as sociedades. Pelo facto de as decisões serem tomadas com base em incertezas, a estatística e em particular a modelação e previsão de dados, tem um papel muito importante na análise do risco. É muito comum, a modelação e previsão de dados recorrendo a diversas técnicas/métodos estatísticos para a análise de séries temporais, que permitem obter uma melhor compreensão dos dados e consequentemente, avaliação, gestão e mitigação dos riscos. Esses métodos de análise de séries temporais estão amplamente desenvolvidos na literatura, nomeadamente, os métodos clássicos. Contudo, os modelos clássicos obrigam ao cumprimento de determinadas suposições em relação às caraterísticas dos dados, sendo uma tarefa que obriga a um maior esforço por parte do analista, principalmente, quando estamos perante séries temporais com dados reais. Em alternativa, pode-se utilizar uma técnica relativamente moderna, ainda pouco utilizada na comunidade científica Portuguesa, e muito poderosa conhecida como Análise Espectral Singular (SSA, do inglês Singular Spectrum Analysis). A SSA é uma técnica em que não é necessário conhecer o modelo paramétrico da série temporal, baseando-se apenas nos dados e pode ser aplicado em qualquer série com algum potencial de estrutura. Esta técnica tem como objetivo decompor a série temporal original numa soma de componentes independentes e interpretáveis, que representam a tendência, o comportamento periódico e o ruído sem estrutura. Uma vez determinadas as componentes, as mesmas são selecionadas para reconstruir uma aproximação à série temporal sem ruído e, em seguida, são usadas para realizar previsões. A presente dissertação tem como objetivo apresentar o desenvolvimento teórico da técnica SSA e a sua aplicação prática à temática da análise de risco, na área da hidrologia. Com esta finalidade foi aplicado o modelo SSA a uma série temporal com dados reais que dizem respeito ao volume de água armazenado em um conjunto de albufeiras, por forma a contribuir para uma avaliação do risco de escassez de água. De uma forma geral, observou-se que a técnica SSA refletiu de forma aproximada o comportamento da série temporal original e que o algoritmo recorrente de previsão SSA representou de forma adequada as variações existentes nos dados. Por forma a comparar a técnica SSA com os modelos clássicos realizou-se a análise da mesma série temporal, com a aplicação, aos dados do modelo Autorregressivo Integrado de Médias Móveis (ARIMA, do inglês Autoregressive Integrated Moving Average), embora sem recurso a uma análise muito pormenorizada. Concluiu-se que o SSA, em geral, produziu resultados tão bons, até mesmo superiores, aos resultados gerados pelo método clássico considerado nesta investigação científica, com uma menor intervenção por parte do analista. O SSA será cada vez mais utilizado por estatísticos profissionais, especialistas em processamento de sinais e imagens, especialistas em várias áreas interessados em usar métodos estatísticos na análise de séries temporais e na comunidade académica, quer pela sua simplicidade no entendimento dos dados, quer pelo bom desempenho do mesmo.