Mestrado em Estatística, Matemática e Computação | Master's Degree in Statistics, Mathematics and Computation - TMEMC
Permanent URI for this collection
Browse
Browsing Mestrado em Estatística, Matemática e Computação | Master's Degree in Statistics, Mathematics and Computation - TMEMC by Subject "Álgebra linear"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- Análise estatística multivariada de uma base de vinhos no ambiente computacional RStudio utilizando análise de componentes principaisPublication . Almendra Filho, Geraldo Lima; Nunes, Catarina S.Análise de Componentes Principais (Principal Component Analysis – PCA), é um método de Análise Multivariada que utiliza uma transformação linear para reduzir a dimensão de bancos de dados, transformando grandes conjuntos de variáveis com suas instâncias associadas (dados coletados), em subconjuntos não correlacionados com agrupamentos alternativos das variáveis originais, formando novas variáveis com os mesmos registros de entrada de dados visando analisar e explicar a variação total dos dados através de componentes ou fatores, que são definidos como combinações lineares das variáveis originais que mais influenciam o seu comportamento. O mérito da redução da dimensionalidade, é trocar um pouco de precisão por, principalmente, simplicidade, pela facilidade de explorar, visualizar, analisar e explicar, ao escolhermos poucos CPs (Componentes Principais) que explicam as maiores parcelas de variabilidade dos dados. A partir de uma base de dados que contém 1599 registros de vinhos tintos (Data Folder da fonte [1]), vamos reagrupar suas variáveis, eliminando as redundâncias ou semelhanças por força das correlações identificadas no conjunto de dados. O objetivo é formar subconjuntos não correlacionados, ou com mínimas correlações e alta dispersão o que, naturalmente, vem às custas relativas da precisão analítica pontual. Como o banco de dados não informa os nomes de rótulos (marcas dos vinhos) por decisão do autor da pesquisa, estes serão substituídos por “rótulos numéricos” em ordem crescente para melhor conduzir e auxiliar a Análise Multivariada através da PCA. A base citada tem como origem o estudo de P. Cortez, A. Cerdeira, F. Almeida, T. Matos e J. Reis [1] e apresenta em arquivo csv os registros de dados associados a 12 variáveis - atributos químicos dos vinhos – e a uma variável categórica, no caso o tipo de vinho tinto. Nosso estudo contém, a par de avaliações estatísticas descritivas no contexto do PCA, uma abordagem das relações da qualidade com mudanças nas métricas dos atributos como um dos objetivos do projeto já que não podemos correlacionar “marcas formais” mas sim suas instâncias com as notas obtidas na avaliação sensorial. Veremos que a qualidade, sabor e outras características, caracterizadas através de avalição sensorial feita [3] por um grupo de provadores, estão correlacionados em maior ou menor grau com alterações métricas nos atributos – componentes químicos: (i) altamente correlacionados com o grau alcoólico e (ii), em menor escala, com os atributos cloretos, sulfatos, densidade, acidez fixa e ácido cítrico. Em termos dos CPs necessários para avaliar estatisticamente de forma multivariada a base de dados, será demonstrado que apenas 4 CPs resultantes do processo PCA detém cerca de 69 % das variações explicadas validando o uso do modelo PCA para analisar estatisticamente e de forma multivariada a base de dados. Todos os conceitos matemáticos e estatísticos necessários para o desenvolvimento deste trabalho foram expostos ao longo do texto, devendo-se enfatizar que os algoritmos (packages) da linguagem RStudio trazem embutidos as rotinas de cálculos necessárias para o desenvolvimento do processo PCA. Como será descrito nos Comentários Conclusivos, os objetivos da Dissertação foram atingidos pois foi possível desenvolver o processo PCA sobre a base de dados escolhida, para além da utilização detalhada do RStudio e seus “packages” para esta finalidade de Análise Multivariada, como pode ser visto no script do Anexo I.