Mestrado em Estatística, Matemática e Computação | Master's Degree in Statistics, Mathematics and Computation - TMEMC
Permanent URI for this collection
Browse
Browsing Mestrado em Estatística, Matemática e Computação | Master's Degree in Statistics, Mathematics and Computation - TMEMC by Sustainable Development Goals (SDG) "04:Educação de Qualidade"
Now showing 1 - 10 of 23
Results Per Page
Sort Options
- Administração de tráfego telefônico: utilização de método numérico e simulação para estimar congestionamento e demanda de tráfego em sistemas de perda (loss systems)Publication . Sampaio, Paulo Celso; Nunes, Catarina S.Este trabalho tem como objetivo geral propor um modelo probabilístico que possibilite estimativas sobre congestionamento e demanda de tráfego telefônico e está dividido em duas partes. Na primeira parte, uma abordagem exploratória, é apresentado um método numérico e dois métodos de simulação: simulação estática (Monte Carlo) e simulação dinâmica (eventos discretos), para calcular congestionamento em um determinado período de observação, utilizando apenas dois dados de entrada: o tempo total de ocupação e a quantidade de meios disponíveis para escoamento de chamadas, através da Fórmula B de Erlang para sistemas de perda, que tem origem no processo estocástico de nascimento e morte “número de meios ocupados em determinado instante”. Os resultados de congestionamento obtidos por método numérico e simulação se apresentaram bastante próximos. Além da medida de congestionamento, são apresentadas outras medidas de tráfego que vão compor uma grade mínima de indicadores operacionais para a gestão do tráfego telefônico. Na segunda parte, de natureza confirmatória, são feitos testes de aderência sobre o processo de chegadas e sobre a distribuição do tempo de ocupação dos meios, que são dois pressupostos básicos de um sistema de perda (loss system) o qual consiste em um modelo de fila markoviano onde não há espera, ou seja, quando todos os meios estão ocupados uma nova tentativa é perdida. Nos testes de aderência, sobretudo com respeito ao processo de chegadas, não houve rejeição da hipótese inicial 𝐻0: “as chegadas / unidade de tempo tem distribuição de Poisson”. Já com respeito à distribuição dos tempos de ocupação, não foi observada uma aderência forte à distribuição Exponencial em pesquisas de rotas onde escoam chamadas de naturezas distintas, tais como as rotas de tráfego interurbano (de longa distância) onde trafegam chamadas interurbanas de fixo para fixo, sempre de maior duração, misturadas com chamadas que têm um telefone celular em uma das pontas, sendo estas em geral de menor duração
- Análise estatística multivariada de uma base de vinhos no ambiente computacional RStudio utilizando análise de componentes principaisPublication . Almendra Filho, Geraldo Lima; Nunes, Catarina S.Análise de Componentes Principais (Principal Component Analysis – PCA), é um método de Análise Multivariada que utiliza uma transformação linear para reduzir a dimensão de bancos de dados, transformando grandes conjuntos de variáveis com suas instâncias associadas (dados coletados), em subconjuntos não correlacionados com agrupamentos alternativos das variáveis originais, formando novas variáveis com os mesmos registros de entrada de dados visando analisar e explicar a variação total dos dados através de componentes ou fatores, que são definidos como combinações lineares das variáveis originais que mais influenciam o seu comportamento. O mérito da redução da dimensionalidade, é trocar um pouco de precisão por, principalmente, simplicidade, pela facilidade de explorar, visualizar, analisar e explicar, ao escolhermos poucos CPs (Componentes Principais) que explicam as maiores parcelas de variabilidade dos dados. A partir de uma base de dados que contém 1599 registros de vinhos tintos (Data Folder da fonte [1]), vamos reagrupar suas variáveis, eliminando as redundâncias ou semelhanças por força das correlações identificadas no conjunto de dados. O objetivo é formar subconjuntos não correlacionados, ou com mínimas correlações e alta dispersão o que, naturalmente, vem às custas relativas da precisão analítica pontual. Como o banco de dados não informa os nomes de rótulos (marcas dos vinhos) por decisão do autor da pesquisa, estes serão substituídos por “rótulos numéricos” em ordem crescente para melhor conduzir e auxiliar a Análise Multivariada através da PCA. A base citada tem como origem o estudo de P. Cortez, A. Cerdeira, F. Almeida, T. Matos e J. Reis [1] e apresenta em arquivo csv os registros de dados associados a 12 variáveis - atributos químicos dos vinhos – e a uma variável categórica, no caso o tipo de vinho tinto. Nosso estudo contém, a par de avaliações estatísticas descritivas no contexto do PCA, uma abordagem das relações da qualidade com mudanças nas métricas dos atributos como um dos objetivos do projeto já que não podemos correlacionar “marcas formais” mas sim suas instâncias com as notas obtidas na avaliação sensorial. Veremos que a qualidade, sabor e outras características, caracterizadas através de avalição sensorial feita [3] por um grupo de provadores, estão correlacionados em maior ou menor grau com alterações métricas nos atributos – componentes químicos: (i) altamente correlacionados com o grau alcoólico e (ii), em menor escala, com os atributos cloretos, sulfatos, densidade, acidez fixa e ácido cítrico. Em termos dos CPs necessários para avaliar estatisticamente de forma multivariada a base de dados, será demonstrado que apenas 4 CPs resultantes do processo PCA detém cerca de 69 % das variações explicadas validando o uso do modelo PCA para analisar estatisticamente e de forma multivariada a base de dados. Todos os conceitos matemáticos e estatísticos necessários para o desenvolvimento deste trabalho foram expostos ao longo do texto, devendo-se enfatizar que os algoritmos (packages) da linguagem RStudio trazem embutidos as rotinas de cálculos necessárias para o desenvolvimento do processo PCA. Como será descrito nos Comentários Conclusivos, os objetivos da Dissertação foram atingidos pois foi possível desenvolver o processo PCA sobre a base de dados escolhida, para além da utilização detalhada do RStudio e seus “packages” para esta finalidade de Análise Multivariada, como pode ser visto no script do Anexo I.
- Análise estatística: perfil e factores de risco da mortalidade causada por doenças infecciosas em MaputoPublication . Manjate, Fernando André Fernando; Nunes, Catarina S.As doenças infecciosas com destaque para malária, tuberculose e HIV/SIDA constituem um grande problema de saúde pública para Moçambique, pelos custos empreendidos e pelo nível de mortalidade. Neste sentido, com base nestas doenças e nos dados de 2020 a 2022, a presente dissertação tem como objectivo central compreender o perfil e os factores de risco da mortalidade causada por doenças infecciosas no Hospital Central de Maputo. Para tal, a metodologia baseou-se numa análise estatística recorrendo essencialmente a técnicas da Estatística Descritiva e a Regressão Logística e tendo por base uma amostra de 687 doentes dos quais 364 tiveram alta e 323 foram óbitos. O perfil da amostra é marcado por uma taxa de mortalidade de 24% sendo a malária a maior causa (40%), género feminino (51,7%), idades entre 25 e 49 anos (52,9%), casados (44,7%), consumidores de álcool (68%, com 15 ou mais anos de idade), não fumantes (70%, com 15 ou mais anos de idade), ser proveniente do Grande Maputo (43,1%), não sofrer de nenhuma doença crónica (63,9%) e os que nunca tiveram um internamento anteriormente (59,1%). Quanto aos factores de risco comparou-se os critérios Enter (em duas fases), Forward LR e Backward LR, todos apresentam boas capacidades preditivas e de descriminação, confiabilidade substancial e ajustamentos adequados; os últimos dois apresentam resultados iguais e destacam-se como os de melhor desempenho pela simplicidade e menor razão de verosimilhança, tendo-se identificado os seguintes factores: ser casado, ser proveniente do centro e norte, ser fumante e sofrer duma doença crónica associada.
- Análise multinível: aplicação em avaliação de desempenho escolarPublication . Pires, Emerson Andrade; Ramos, Maria do RosárioA natureza, a quantidade de variáveis envolvidas no processo de ensino aprendizagem, a forma como estas variáveis estão agrupadas: variáveis do aluno, da sala, do professor, da escola, da família, etc. nos impõe que qualquer estudo aplicado nesta área não deve descurar esta hierarquia organizacional, pois se tal acontecer, as conclusões advenientes correm o risco de serem desprovidas de rigor científico. Nesta vertente, aparecem os modelos de regressão multiníveis que estatisticamente trazem esta mais valia que é a possibilidade de analisar dados que possuem uma organização hierárquica, o que na educação se verifica de uma forma bem óbvia, visto termos alunos (com caraterísticas próprias) agrupados em turmas (um outro nível hierárquico) que por sua vez estão agrupadas em escolas, que também podem pertencer a agrupamentos escolares. Apesar desta evidente organização hierárquica, há uma regra estatística que nos irá permitir avançar ou não com o ajustamento dos dados a um modelo de regressão multinível: o Coeficiente de Correlação Intraclasse. Caso não seja possível o ajuste dos dados pelo modelo multinível devemos pesquisar outros procedimentos estatísticos que melhor se adequem aos dados. Neste trabalho, procuramos modelar os dados de avaliação de desempenho dos alunos das escolas secundárias da cidade do Porto Novo – Santo Antão – Cabo Verde dos anos letivos 2016 a 2019, tendo como variáveis dependentes as classificações finais nas disciplinas de Matemática e Português. Os dados não suportaram estatisticamente um modelo multinível, pelo que decidimos recorrer a regressão múltipla, considerando a Nota Final à Matemática e à Português como variáveis respostas. O estudo foi conduzido com o apoio do software IBM SPSS (Satistical Package for Social Science) Versão 25.
- Análise multivariada: previsão do índice de produção industrialPublication . Oliveira, Jacinta Freire Galvão de; Nunes, Catarina S.A presente dissertação consiste na análise de séries temporais especificamente o modelo do tipo SARIMA e análise de regressão múltipla, na modelação e previsão do índice de produção industrial de Cabo Verde. Para aplicação do modelo SARIMA, com base na série mensal de 2014 a 2019, foi verificada a estacionaridade pelo teste Dickey-Fuller (ADF) e KPSS, e a sazonalidade pelo teste de Kruskal–Wallis. O melhor modelo SARIMA foi escolhido com base no Critério de Informação Bayesiano (BIC), Critério de Informação Akaike (AIC) e o Critério de Informação Akaike Corrigido (AICc). A avaliação do modelo baseou-se na análise de resíduos pelo gráfico FAC e FACP e pelo teste de LjungBox. Foi incluído um modelo ARIMA (não sazonal), uma vez que a existência da sazonalidade suscitava dúvidas nas análises prévias. O outro método escolhido neste estudo é a análise do modelo de regressão múltipla. Neste método, primeiramente se verificou a existência de multicolinearidade, isto é, existência de uma correlação forte entre as variáveis independentes e fez-se esta análise pelo método VIF (variance factor inflaction). Posteriormente a avaliação do modelo que foi feita pela análise de resíduos tal como no modelo SARIMA. Neste último, a análise da normalidade foi efetuada pelo teste de Shapiro-wilk e Shapiro-Francia, a independência nos termos do erro pelo teste de DurbinWatson e a homocedasticidade pelo teste de Breusch-Pagan e White. Selecionou-se quatro modelos para previsão do índice de produção industrial de Cabo Verde, sendo três dos modelos SARIMA e um modelo da regressão múltipla. Os modelos se adequam-se aos dados, conforme as análises, e os dados previstos seguem a tendência dos dados originais. Dos quatro modelos, o modelo da regressão múltipla, modelo m3, é o modelo com erros de previsões menores e segue melhor os dados originais, portanto, o modelo que melhor prevê o índice.
- Aplicação da análise espectral singular à análise de riscoPublication . Sarmento, Carla Alexandra da Silva; Oliveira, AmílcarA análise de risco é um campo de vital importância para as sociedades. Pelo facto de as decisões serem tomadas com base em incertezas, a estatística e em particular a modelação e previsão de dados, tem um papel muito importante na análise do risco. É muito comum, a modelação e previsão de dados recorrendo a diversas técnicas/métodos estatísticos para a análise de séries temporais, que permitem obter uma melhor compreensão dos dados e consequentemente, avaliação, gestão e mitigação dos riscos. Esses métodos de análise de séries temporais estão amplamente desenvolvidos na literatura, nomeadamente, os métodos clássicos. Contudo, os modelos clássicos obrigam ao cumprimento de determinadas suposições em relação às caraterísticas dos dados, sendo uma tarefa que obriga a um maior esforço por parte do analista, principalmente, quando estamos perante séries temporais com dados reais. Em alternativa, pode-se utilizar uma técnica relativamente moderna, ainda pouco utilizada na comunidade científica Portuguesa, e muito poderosa conhecida como Análise Espectral Singular (SSA, do inglês Singular Spectrum Analysis). A SSA é uma técnica em que não é necessário conhecer o modelo paramétrico da série temporal, baseando-se apenas nos dados e pode ser aplicado em qualquer série com algum potencial de estrutura. Esta técnica tem como objetivo decompor a série temporal original numa soma de componentes independentes e interpretáveis, que representam a tendência, o comportamento periódico e o ruído sem estrutura. Uma vez determinadas as componentes, as mesmas são selecionadas para reconstruir uma aproximação à série temporal sem ruído e, em seguida, são usadas para realizar previsões. A presente dissertação tem como objetivo apresentar o desenvolvimento teórico da técnica SSA e a sua aplicação prática à temática da análise de risco, na área da hidrologia. Com esta finalidade foi aplicado o modelo SSA a uma série temporal com dados reais que dizem respeito ao volume de água armazenado em um conjunto de albufeiras, por forma a contribuir para uma avaliação do risco de escassez de água. De uma forma geral, observou-se que a técnica SSA refletiu de forma aproximada o comportamento da série temporal original e que o algoritmo recorrente de previsão SSA representou de forma adequada as variações existentes nos dados. Por forma a comparar a técnica SSA com os modelos clássicos realizou-se a análise da mesma série temporal, com a aplicação, aos dados do modelo Autorregressivo Integrado de Médias Móveis (ARIMA, do inglês Autoregressive Integrated Moving Average), embora sem recurso a uma análise muito pormenorizada. Concluiu-se que o SSA, em geral, produziu resultados tão bons, até mesmo superiores, aos resultados gerados pelo método clássico considerado nesta investigação científica, com uma menor intervenção por parte do analista. O SSA será cada vez mais utilizado por estatísticos profissionais, especialistas em processamento de sinais e imagens, especialistas em várias áreas interessados em usar métodos estatísticos na análise de séries temporais e na comunidade académica, quer pela sua simplicidade no entendimento dos dados, quer pelo bom desempenho do mesmo.
- Aplicação de máquinas de vector suporte para classificação de ratos transgénicos através de imagem da retinaPublication . Valentim, Érick Braga; Serranho, Pedro; Bernardes, Rui Manuel Dias Cortesão dos SantosO objetivo deste trabalho consistiu na criação de modelos de aprendizagem supervisionada baseados nas técnicas de Support Vector Machine (SVM) e Support Vector Machine com informação privilegiada (SVM+) capazes de distinguir entre ratos saudáveis (C) e transgénicos (D) por meio de análise de textura da imagem de tomografia de coerência óptica (OCT) de retinas do olho direito. A amostra é composta por 74 ratos, sendo 40 saudáveis e 34 transgénicos. A tomografia de coerência óptica foi utilizada para obtenção da imagem da retina dos ratos que, por sua vez, foi dividida em 4 quadrantes. A partir destes, obteve-se uma imagem de fundo 2D e foram aplicados 20 indicadores de análise de textura de imagem de fundo, usados como features para o modelo SVM. As features com maior capacidade de separação entre grupos e que possuem coeficiente de correlação inferior a 0,7 entre elas foram Inertia (primeiro, segundo e quarto quadrantes), INN (Inverse difference normalized; terceiro quadrante), IMC2 (Information measure of correlation; terceiro quadrante) e ClusterShade (terceiro quadrante). Considerando as 6 features mais relevantes foram criados os modelos SVM e SVM+ cujos parâmetros foram afinados de maneira a obter os modelos com a melhor precisão na classificação dos ratos nas categorias saudável e transgénico. A técnica de validação cruzada em 5 grupos foi utilizada para validar os resultados dos modelos criados. Tanto para o conjunto de teste como para o conjunto de dados total o modelo SVM obteve 100% precisão, enquanto que a precisão obtida pelo modelo SVM+ foi de 93,33% (erro de apenas 1 caso em 15 – conjunto de teste) na classificação dos dados do conjunto de teste e 98,65% (erro de apenas 1 caso em 74 – conjunto de dados total) no conjunto de dados total.
- Aplicação de métodos de estatística espacial e multivariada na análise da qualidade da àgua no Sul do Mar do NortePublication . Ody, Christopher Ricardo; Carolino, Elisabete Teresa da Mata Almeida; Ramos, Maria do RosárioA região do Sul do Mar do Norte desempenha um papel vital tanto para a economia quanto para a sociedade dos países circunvizinhos. A análise da qualidade da sua água é um processo crítico que envolve a avaliação de parâmetros físicos, químicos e biológicos, essencial para garantir a sustentabilidade ambiental e a saúde das comunidades locais e ecossistemas marinhos. Utilizando métodos de Estatística Multivariada e Espacial, esta investigação busca identificar padrões e autocorrelações espaciais para avaliar a qualidade da água naquela região. Os dados utilizados foram coletados em cruzeiro científico realizado em dezembro de 2020 a bordo da embarcação RV Meteor, liderado por uma equipe de pesquisadores alemães. Os dados brutos passaram por pré-tratamento orientado pelo protocolo de Controle de Qualidade de Dados da SeaDataNet, um projeto internacional de oceanografia destinado a disponibilizar dados marítimos europeus. Foram realizados testes de pico e gradiente, além da padronização dos dados e imputação através de interpolação de ponderação pela distância inversa. Para um melhor entendimento da área estudada, os dados foram agregados por zonas para determinadas análises e, por vezes, foram considerados globalmente. Foi realizada uma análise exploratória de dados espaciais (AEDE) de modo a resumir suas principais características. Também realizou-se uma redução da dimensionalidade dos dados originais através da análise de componentes principais como ferramenta auxiliar à análise espacial. A autocorrelação espacial foi analisada através do cálculo da Estatística 𝐼 de Moran global e local. As conclusões indicaram uma autocorrelação espacial significativa para todas as variáveis consideradas nas zonas de águas doce e um expressivo achatamento da amplitude das variáveis nas zonas de mar aberto, o que possivelmente ocasionou a inexistência de autocorrelação espacial significativa naquelas zonas.
- Distribuição de pontos fonte para o método das soluções fundamentais: aplicação a problemas de ondas acústicas em domínios exteriores em R3Publication . Costa, José Manuel Hipólito Firmino da; Serranho, PedroNeste trabalho pretende-se gerar uma distribuição de pontos fonte adequada para o método das soluções fundamentais (MFS - method of fundamental solutions) que otimize o condici-onamento do sistema linear associado à resolução numérica do problema exterior de difração de um campo acústico incidente por um obstáculo tridimensional impenetrável conhecido (𝐷). Considera-se que o obstáculo é um domínio estrela diferente da esfera unitária 𝑆2. Neste trabalho, consideramos a equação de Helmholtz exterior que modela a propagação e difração de ondas acústicas harmónicas no tempo. A aplicação do MFS a este problema gera um sistema linear que depende dos pontos fonte e de colocação considerados. O que se pre-tende é explorar a distribuição de pontos fonte de forma a que o condicionamento do sistema seja controlado, à medida que o número de pontos aumenta. As metodologias desenvolvidas para encontrar uma boa distribuição de pontos são a generalização para qualquer superfície estrela regular de trabalho anterior desenvolvido para a esfera unitária [1] e baseiam-se numa aplicação da interação de Coulomb, sendo exploradas e comparadas várias variantes. São ilustrados os resultados do método, tanto graficamente como através de métricas apropria-das, tanto na vertente da distribuição dos pontos fonte, como na sua influência para o condi-cionamento do sistema.
- Equações da mecânica celeste: alguns aspetos de integração numéricaPublication . Jacinto, Mara Filipa Teodoro; Costa, Fernando Pestana da; Serranho, PedroA dissertação aqui apresentada baseia-se nas equações da Mecânica Celeste. Este trabalho foca-se nas órbitas dos planetas do Sistema Solar. Em primeira aproximação, as órbitas são elipses, que foram descritas por Kepler nas suas três leis do movimento. Newton descreveu, na sua segunda lei, a alteração do movimento de um corpo, relacionando-o com a força aplicada neste. A lei da gravitação universal indica que a força gravítica entre quaisquer corpos é proporcional ao produto das suas massas e inversamente proporcional ao quadrado da distância entre estes. A relação entre estas duas leis pode ser aplicada a um sistema de n corpos, como é o caso do nosso Sistema Solar. As órbitas dos planetas podem ser descritas pelas equações do movimento, que podemos escrever em função das derivadas temporais dos vetores posição e momento linear. Estas derivadas estão relacionadas com as derivadas do Hamiltoniano do sistema. Utiliza-se o Hamiltoniano para representar a energia total do Sistema Solar, pois este é um sistema conservativo, isto é, a sua energia permanece constante ao longo do tempo. A aplicação numérica ao problema do Sistema Solar utiliza a equação diferencial que relaciona o Hamiltoniano com a posição e o momento linear. Para resolver numericamente esta equação diferencial utilizaram-se três métodos: o método de Euler explícito, o método de Euler simplético e o método de Störmer-Verlet. O método de Euler explícito foi utilizado apenas como referência, pois não é adequado a sistemas conservativos. Os restantes métodos são adequados a sistemas conservativos e apresentam resultados mais próximos aos da elipse teórica e dos dados calculados pelo JPL/NASA. Contudo, estes métodos apresentam algumas dificuldades, nomeadamente, o cálculo dos erros começa a afastar-se da ordem de convergência dos métodos à medida que os dados se afastam das condições iniciais, pois o baricentro do Sistema Solar destes métodos não se encontra na origem do referencial utilizado.
- «
- 1 (current)
- 2
- 3
- »