Análise estatística multivariada de uma base de vinhos no ambiente computacional RStudio utilizando análise de componentes principais

Almendra Filho, Geraldo Lima

http://hdl.handle.net/10400.2/11872

Use this identifier to reference this record.

Name:	Description:	Size:	Format:
TMEMC_GeraldoAlmendraFilho.pdf		2.45 MB	Adobe PDF	Download

Send Feedback

Authors

Almendra Filho, Geraldo Lima

Advisor(s)

Nunes, Catarina S.

Abstract(s)

Análise de Componentes Principais (Principal Component Analysis – PCA), é um método de Análise Multivariada que utiliza uma transformação linear para reduzir a dimensão de bancos de dados, transformando grandes conjuntos de variáveis com suas instâncias associadas (dados coletados), em subconjuntos não correlacionados com agrupamentos alternativos das variáveis originais, formando novas variáveis com os mesmos registros de entrada de dados visando analisar e explicar a variação total dos dados através de componentes ou fatores, que são definidos como combinações lineares das variáveis originais que mais influenciam o seu comportamento. O mérito da redução da dimensionalidade, é trocar um pouco de precisão por, principalmente, simplicidade, pela facilidade de explorar, visualizar, analisar e explicar, ao escolhermos poucos CPs (Componentes Principais) que explicam as maiores parcelas de variabilidade dos dados. A partir de uma base de dados que contém 1599 registros de vinhos tintos (Data Folder da fonte [1]), vamos reagrupar suas variáveis, eliminando as redundâncias ou semelhanças por força das correlações identificadas no conjunto de dados. O objetivo é formar subconjuntos não correlacionados, ou com mínimas correlações e alta dispersão o que, naturalmente, vem às custas relativas da precisão analítica pontual. Como o banco de dados não informa os nomes de rótulos (marcas dos vinhos) por decisão do autor da pesquisa, estes serão substituídos por “rótulos numéricos” em ordem crescente para melhor conduzir e auxiliar a Análise Multivariada através da PCA. A base citada tem como origem o estudo de P. Cortez, A. Cerdeira, F. Almeida, T. Matos e J. Reis [1] e apresenta em arquivo csv os registros de dados associados a 12 variáveis - atributos químicos dos vinhos – e a uma variável categórica, no caso o tipo de vinho tinto. Nosso estudo contém, a par de avaliações estatísticas descritivas no contexto do PCA, uma abordagem das relações da qualidade com mudanças nas métricas dos atributos como um dos objetivos do projeto já que não podemos correlacionar “marcas formais” mas sim suas instâncias com as notas obtidas na avaliação sensorial. Veremos que a qualidade, sabor e outras características, caracterizadas através de avalição sensorial feita [3] por um grupo de provadores, estão correlacionados em maior ou menor grau com alterações métricas nos atributos – componentes químicos: (i) altamente correlacionados com o grau alcoólico e (ii), em menor escala, com os atributos cloretos, sulfatos, densidade, acidez fixa e ácido cítrico. Em termos dos CPs necessários para avaliar estatisticamente de forma multivariada a base de dados, será demonstrado que apenas 4 CPs resultantes do processo PCA detém cerca de 69 % das variações explicadas validando o uso do modelo PCA para analisar estatisticamente e de forma multivariada a base de dados. Todos os conceitos matemáticos e estatísticos necessários para o desenvolvimento deste trabalho foram expostos ao longo do texto, devendo-se enfatizar que os algoritmos (packages) da linguagem RStudio trazem embutidos as rotinas de cálculos necessárias para o desenvolvimento do processo PCA. Como será descrito nos Comentários Conclusivos, os objetivos da Dissertação foram atingidos pois foi possível desenvolver o processo PCA sobre a base de dados escolhida, para além da utilização detalhada do RStudio e seus “packages” para esta finalidade de Análise Multivariada, como pode ser visto no script do Anexo I.

This work aims at the study of a database with 1599 red wine records through multivariate statistics using Principal Components Analysis (PCA), and an assessment of relations between wine components and quality measured by a sensory evaluation by tasting specialists. PCA is a method of multivariate analysis that uses a linear transformation to reduce the dimension of databases, transforming large sets of variables with its associated instances (data collected), in non-correlated subsets. These subsets will form alternative groups of the original variables defining new variables (main components) with the same data input records, to analyze and explain the data total variability through new components or factors, which are defined as linear combinations of the original variables that influence their behavior, this is the main objective of the PCA. The merit of dimensionality reduction is to change a little precision by mainly simplicity for the ease of explore, visualize, analyze, and explain, when we choose few variables that explain the largest parcels of data variability. The database does not have the names of the wine brands, these are substituted by numeral labels in an increasing order, which allows us to perform a multivariable analysis using PCA. The wine database is from the study of P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis [1] (csv file), containing de data associated with 12 variables – chemical wine attributes – and a categorical variable specifying the type of wine. Our study focusses on descriptive statistical evaluations (in a PCA context) and also explores the relation between the wine quality and changes in the metrics of the attributes. This is one of the objectives, since one cannot correlate the wine brands with the grades obtained by the sensorial evaluation. We shall see that the quality, taste and other wine characteristics from the sensorial evaluation [3] (Parts 8 and 9), are correlated in some degree with changes in the wine attributes metrics – chemical attributes: (i) are highly correlated with the alcohol level and (ii) are in a smaller extent correlated with chlorides, sulfates, density, fixed acidity and citric acid. Regarding the principal components (the new variables associated with the wine records) required to statistically evaluate the data base (on a multivariate perspective), this work demonstrates that only 4 principal components are responsible for 69% of the explained variability, which validates the use of PCA to analyze the data. All mathematical and statistics concepts required for the development of this work will be explained throughout the text, as necessary. However, we should emphasize that the algorithms (packages) of the software RStudio have embedded the necessary programs and calculations for the development of PCA. This dissertation achieves its objectives, since it was possible to develop a PCA with the proposed database and to use in detail the RStudio software (and its packages) in a multivariate analysis.

Keywords

Análise de componentes principais Análise estatística multivariada Wine Quality UCI Data Set RStudio Álgebra linear PCA Multivariate analysis Linear algebra