The Real World Life of Breeders

Abordagens essenciais para melhoristas

Análises de dados usando o software R

Sejam bem vindos (as)!

Jennifer Lopes

  • Contato

O que preciso para iniciar?

Cronograma do curso

  1. Apresentação dos materiais

  2. Objetivos do curso

  3. Reprodutividade na pesquisa

  4. Ambientação no RStudio

    • Abordagens essenciais para Melhoristas
  5. Manipulação de dados

  6. Visualização de dados

  7. Análise de dados experimentais

    • Delineamento em Apha Láttice

    • Modelos Lineares Mistos

    • Análises Multivariadas

  8. Considerações finais

Objetivos do curso

  1. Evidenciar as abordagens que os melhoristas se deparam na vida real ao longo da sua jornada de estudante/profissional;
  2. Capacitar na manipulação, visualização e análise de dados;
  3. Análise de modelos estatísticos para Melhoramento de Plantas e a aplicação de métodos multivariados.

Reprodutibilidade na pesquisa

  • “É um conceito que não tem uma definição única e comum”.

    (Gundersen, 2021)

  • “Para alguém fazer uma afirmação científica legítima, ele deve ser capaz de reproduzir totalmente seus resultados a partir de seus dados brutos (e de preferência outros devem ser capazes de reproduzi-los também)”.

    Dr. John Paul Helveston

  • Além de promover a confiança na ciência, a reprodutibilidade facilita a colaboração entre pesquisadores, permitindo que análises sejam revisadas, aprimoradas e adaptadas para outros contextos.

Reprodutibilidade

“Reprodutibilidade é como escovar os dentes. Isso é bom para você, mas leva tempo e esforço. Depois de aprender, torna-se um hábito.” - Irakli Loladze, Bryan College of Health Sciences em Lincoln, Nebraska.

Baker, M. 1,500 scientists lift the lid on reproducibility. Nature 533, 452–454 (2016). https://doi.org/10.1038/533452a

Exemplos

  • Documentação adequada dos métodos.

  • Disponibilização dos códigos utilizados para realizar as etapas de análise de dados de dados.

E NA EMPRESA?

Allison horst.

R é o software e RStudio é a interface

  • O R é uma linguagem de programação e ambiente de software livre e de código aberto amplamente utilizado para análise de dados e estatísticas.

Sobre o software e IDE

  • Foi criado por Ross Ihaka e Robert Gentleman na Universidade de Auckland, Nova Zelândia, e anunciado em 1996;

  • R ganhou popularidade devido à sua flexibilidade e extensibilidade, tornando-se uma ferramenta indispensável para cientistas de dados, estatísticos e pesquisadores em todo o mundo;

  • CRAN - The Comprehensive R Archive Network, é uma rede de servidores ftp e web em todo o mundo que armazena versões idênticas e atualizadas de código e documentação para R;

  • Posit- Baixar a IDE e acessar a comunidades, blog, atualizações.

Por quê usar linguagens de programação para analisar dados?

Código aberto

  1. Acesso gratuito.

  2. Todas as pessoas podem usar as melhores ferramentas independentemente do poder financeiro.

  3. Estudantes podem usar as mesmas ferramentas que profissionais.

  4. Você pode corrigir problemas e aprimorar a linguagem.

  5. Você pode desenvolver suas próprias ferramentas.

  6. Possibilita a existência de uma comunidade ativa.

O ciclo da ciência de dados

Ambientação no RStudio

Primeiro Script

  • Para que você comece a escrever os códigos ou seja “programar”, é necessário criar um arquivo R Script. Veja como abrir este arquivo, clicando em:

  • File> New File > R Script.

  • ATALHO: Ctrl + Shift + N.

Primeiro Script

File> New File > R Script. Ou use o atalho Ctrl + Shift + N.

Ambientação no RStudio

Este é o ambiente do RStudio, ele é representado por quatro quadrantes, o editor, console, environment e output. A organização desses quadrantes pode ser alterada como você preferir;

1. Editor : onde você irá escrever e editar os scripts em R;

2. Console: permite a execução dos comandos em R;

3. Output (saída): exibe os resultados das operações realizadas no console;

4. Environment (ambiente): mostra os objetos (variáveis, funções) disponíveis na sessão R.

Ambientação no RStudio

Quando você cria um novo arquivo de script R, um quarto painel deve aparecer no canto superior esquerdo do R Studio, como você pode ver na Figura abaixo. Salve esse arquivo na pasta que você escolher como código exemplo.

Pacotes

O que são pacotes?

  • Pacotes são coleções de funções R, dados e código compilado em um formato bem definido;

  • Quando você instala o R, ele já vem com um conjunto padrão de pacotes que cobrem a maioria das operações e funcionalidades mais comuns, como soma, estruturas de controle, ajuste de modelos , dentre outros;

  • Pacotes nativos do R (Base R);

  • Pacotes adicionais precisam ser baixados do CRAN e instalados;

  • Atualmente temos aproximadamente ~21 mil pacotes no CRAN.

CRAN Task Views

Pacotes de todas áreas, consulte no link abaixo.

Pacotes disponíveis no CRAN Task Views.

Como instalar e carregar um pacote

Usar a função install.packages ( ), via CRAN

  • Instalação dos pacotes no R devem ser sempre dentro de aspas (“nome_do_pacote”).
#install.packages("ggplot2") 

Para carregar é só digitar o nome do pacote, não é necessário utilizar aspas.

library(ggplot2)  

Instalação via Output

Output > Packages> Install > Digitar o nome do pacote

Instalação via GitHub

Nesta caso, é necessário instalar o pacote devtools(), depois dentro do parenteses é necessário colocar (“nome_do_repositótio/nome_do_pacote).

# install.packages("devtools")
# library(devetools)
# devtools::install_github('tidyverse/tidyverse')

Manipulação de dados

Pacotes R para ciência de dados

  • O tidyverse é uma coleção de pacotes R projetados para ciência de dados. Todos os pacotes compartilham uma filosofia de design, gramática e estruturas de dados subjacentes;

  • Você instalando o tidyverse, todos os outros pacotes também serão instalados;

  • Pacotes muito utilizados: dplyr | ggplo2 | forcast | TIBBLE | readr | stringr | tidyr | purrr.

🟣 Acesse a documentação: https://www.tidyverse.org/

Alguns pacotes do tidyverse

  • ggplot2: cria gráficos
  • dplyr: manipulação de dados
  • tidyr: arruma os dados
  • readr: leitura dos dados
  • purr: ferramentas para programação funcional, trabalha com funções e vetores
  • tibble: dataframes moderno, mais simples de manipular
  • magrittr: facilita a escrita e leitura de código
  • stringr: trabalha com strings
  • forcats: trabalha com fatores
  • lubridate: trabalha com datas

Pacote dplyr

  • O pacote dplyr é uma gramática de manipulação de dados, fornecendo um conjunto consistente de verbos que ajudam a resolver os desafios mais comuns da manipulação de dados;

  • As funções dplyr sempre retornam uma cópia transformada da sua tabela;

  • Eles não mudarão sua tabela original, a menos que você solicite (salvando o nome da tabela original);

  • Isso é uma boa notícia, porque você deve sempre manter uma cópia limpa dos seus dados originais, caso algo dê errado.

🟣 Acesse a documentação: https://dplyr.tidyverse.org/

Verbos do dplyr

  • filter(): escolhe casos com base em seus valores

  • mutate(): cria colunas ou altera valores de uma coluna

  • select(): seleciona variáveis com base em seus nomes

  • summarise(): reduz vários valores a um único resumo

  • arrange(): altera a ordem das linhas

  • group_by(): agrupa linhas de valores iguais em uma coluna

  • join(): junta dois conjuntos de dados por meio de um ou mais campos em comum (chaves/keys)

Joins

Tipos de joins

  • Fazer um join ou um merge nada mais é do que juntar dois conjuntos de dados por meio de um ou mais campos em comum (chaves/key).

Fonte: https://r4ds.hadley.nz/joins.

Visualização de dados

{ggplot2} e sua gramática

  • O ggplot2 é um pacote R para produzir gráficos estatísticos ou de dados;

  • Ao contrário da maioria dos outros pacotes gráficos, o ggplot2 possui uma gramática subjacente, baseado no livro The grammar of graphics (Wilkinson, 2005), que permite compor gráficos combinando componentes independentes;

  • Construção de gráficos complexos a partir de componentes básicos;

  • A principal referência deste pacote é o livro ggplot2: Elegant Graphics for Data Analysis (3e), escrito por Hadley Wickham.

Gramática do ggplot2

  1. Obtenção dos dados

  2. Mapear aesthetic (aestética)

  3. Escolher a geometric (geometria)

  4. Escolher o theme (tema)

No código: Argumentos para construção de um gráfico

Aesthetics (estética)

Fonte: Bruna Garbes | Link do material

Geoms (geometrias)

Fonte: Bruna Garbes | Link do material

Analises de dados experimentais

  1. Envolve a experimentação, teste de hipóteses e analise das variáveis de interesse.
  2. Coleta e tabulação de dados.
  3. Análise de dados
    • Manipulação

    • Modelagem

    • Resultados ( tabelas e gráficos)

    • Apresentação dos resultados

Delineamentos em blocos incompletos (DBI)

Tipos de DBI

  1. Tipo I: os blocos formam repetições (repetição de cada tratamento).

  2. Tipo II: os blocos formam grupos de repetições (repetições tem mais de 1 ocorrência de cada tratamento).

  3. Tipo III: sem formação de repetições ou grupos.

  4. Parcialmente balanceados.

  5. Látice e Alfa Láttice.

  6. Aumentados de Federer.

Delineamento em Alfa Láttice

Delineamento em Alfa Láttice

Delineamento em Alpha Láttice. 55 tratamentos, 3 repetições e 5 blocos incompletos.

Delineamento em Alfa Láttice

  • 1Patterson e Williams (1976).

  • Nem todos os tratamentos aparecem em cada bloco.

  • Esse tipo de design é ideal para experimentos com um número elevado de tratamentos (genótipos/cultivares).

  • t = s*k

t: número de tratatamentos

r: número de repetições

k: número de blocos

s: número de blocos incompletos

Modelo

Yijk​= μ + αi​ + βj​ + (1∣rep:inc.bloco)jk​ + ϵijk​​

onde:

Yijk​: valor observado da variável resposta para o genótipo i na réplica j e bloco incompleto k.

μ: média geral do experimento.

αi:​ efeito fixo do genótipo i.

βj:​ efeito fixo da réplica j.

(1∣rep:inc.bloco)jk: efeito aleatório dos blocos incompletos dentro de cada réplica, onde “rep: inc.bloco” indica que os blocos estão aninhados nas réplicas.

ϵijk​: erro aleatório associado a cada observação, assumido com distribuição normal N(0,σ2).

Modelos Lineares Mistos

  1. Seleção de indivíduos superiores.

  2. Corrige simultaneamente os dados para os efeitos ambientais, estima os parâmetros genéticos e prediz os valores genéticos.

  3. Estimação dos componentes de variância - Restricted maximum likelihood REML.

  4. Predição dos valores genéticos - Best linear unbiased prediction (BLUP).

  5. Flexibilidade quanto ao balanceamento dos dados.

Modelos Lineares Mistos x ANOVA

ANOVA Modelos Lineares Mistos
1

Componentes da variância

ANOVA

Componentes da variância

Restricted maximum likelihood REML

2

Componentes da média

Média fenotípica via quadrados mínimos

Componentes da média

Média genética ou genotípica via Best linear unbiased prediction (BLUP)

3

Teste de significância

Teste F da ANOVA

Teste de significância

Teste de LRT via Qui quadrado

Modelos estatísticos y=++ϵ

  • y: vetor de respostas observadas, ou seja, os valores da variável dependente.

Xβ: termo de efeitos fixos, onde:

  • X: é a matriz de variáveis explicativas (design matrix) para os efeitos fixos.

  • β: representa os coeficientes (parâmetros) de efeitos fixos, que são constantes para cada nível do fator fixo.

: termo de efeitos aleatórios, onde:

  • Z: é a matriz de variáveis explicativas para os efeitos aleatórios.

  • γ: são os coeficientes para os efeitos aleatórios, considerados variáveis aleatórias.

  • ϵ: vetor de erros aleatórios residuais, com média zero e variância σ2, representando a variação não explicada pelo modelo.

Efeitos do modelo

Efeito Fixo

  • Os níveis dos efeitos fixos são constantes e foram selecionados deliberadamente para o estudo.

  • A inferência e interpretação desses efeitos são válidas apenas para os níveis presentes no experimento, como um conjunto específico de tratamentos ou genótipos em um experimento.

  • Um exemplo é a comparação entre diferentes fertilizantes: os fertilizantes são níveis fixos, escolhidos intencionalmente.

  • Hipótese a ser testada: verificar se há diferenças significativas entre os níveis, H0​:β1​=β2​=…=βn.

Efeitos do modelo

Efeito Aleatório

  • Os níveis dos efeitos aleatórios são amostras de uma população maior e são tratados como variáveis aleatórias.

  • A inferência é válida para toda a população da qual os níveis são amostrados, permitindo generalizações além dos níveis específicos do estudo.

  • Um exemplo é o uso de blocos incompletos em um experimento: cada bloco representa uma amostra da variabilidade espacial do campo.

  • Hipótese a ser testada: verifica se a variabilidade entre os níveis é significativa, formulada como H0:σ2= 0, onde σ2 é a variância do efeito aleatório.

Estimação dos componentes de variância

Restricted maximum likelihood- REML

Máxima verossimilhança restrita- REML

  • Decompõe a variabilidade observada em diferentes componentes de variância.

y = Xb + Zg + Wp + e

  • Variancia genética (σ2g)

  • Variância interação GxE (σ2ge)

  • Variância residual (σ2res)

Estimação dos componentes de variância

Restricted maximum likelihood REML- Função da Distribuição Normal

  1. Modelagem da variância genética e ambiental: assumimos como normalmente distribuidos. Para variáveis quantitativas, a variação ao redor de uma média esperada (como a média de produtividade) segue um padrão simétrico e contínuo, o que facilita a estimativa desses componentes.

  2. O REML considera essa normalidade para gerar estimativas mais precisas de componentes da variância para dados balanceados ou desbalanceados.

  3. É base por exemplo, para calcular a probabilidade de que a diferença entre genótipos se deva a variação genética e não a erros experimentais (modelagem assumindo a distribuição normal).

\[ f(x)=\frac{1}{\left(\sigma \sqrt{2\pi }\right)}\cdot e^{\left(\frac{-1}{2}\left(\frac{(x-\mu )}{\sigma }\right)^{2}\right)} \]

Estimação dos componentes de variância

Superfície tridimensional de uma função de verossimilhança (REML)

  • Essa superfície representa a probabilidade de observar os dados para diferentes valores dos parâmetros μ e σ2 na distribuição normal.

  • Eixo μ: representa possíveis valores para a média dos dados.

  • Eixo σ2: representa a variância dos dados (g + ge + res).

  • Eixo like: pontos mais altos indicam combinações de μ e σ2 que tornam os dados observados mais prováveis. O REML busca maximizar essa função para obter as estimativas de μ e σ2 plausíveis.

Predição de valores genéticos

Best linear unbiased prediction- BLUP

Melhor previsão linear imparcial - BLUP

  • Estimar os efeitos genéticos associados a indivíduos ou grupos em uma população.

  • Isola o fator ambiental.

  • 1 Equações de Henderson (década de 1950).

Predição de valores genéticos

Best linear unbiased prediction- BLUP

y = Xb + Zg + e

  • X e Z são matrizes de design que relacionam observações com efeitos fixos e aleatórios, respectivamente.

  • b representa os coeficientes dos efeitos fixos (por exemplo, efeitos ambientais).

  • g representa os valores genéticos dos efeitos aleatórios (genótipos).

  • λ é o fator de ponderação que depende da razão entre variância residual e variância genética. ʎ = (1-ℎ2 ) / ℎ2

  • y é o vetor de observações (dados fenotípicos).

Predição de valores genéticos

Best linear unbiased prediction- BLUP

REML

Componentes/parâmetro Estimativa
\(\sigma_g^2\) 25.3
\(\sigma_res^2\) 8.6
\(\sigma_p^2\) 33.5
\(h^2 = \frac{\sigma_g^2}{\sigma_p^2}\) 0.78
μ 15

BLUP/BLUE

  • BLUP: Predição de efeitos aleatórios, como valores genéticos, levando em conta a variabilidade genética e a herdabilidade do caráter.

  • *BLUE: Estimativa de parâmetros fixos, como médias ou coeficientes de efeitos fixos. (b1 e b2)

Efeito BLUP | BLUE
g1 5.5
g2 4.9
g3 5.0
g4 -3.3
g5 -5.0
*b1 10.0
*b2 12.3

Acurácia seletiva

  • Acurácia Seletiva: avaliar o quão confiável é a predição do valor genético de um indivíduo.

Erro de predição (PEV) ou herdabilidade

\(\hat{r}_{\hat{g}g} = \sqrt{1 - \frac{\text{PEV}}{\sigma_g^2}}\)

\(\hat{r}_{\hat{g}g} = \sqrt{h^2}\)

1 Classificação:

  • Baixa (0 0.15) | Moderada (0.15-0.50) | Alta (0.50-0.80) | Muito alta (0.80-1)

Herdabilidade

  • Representa uma proporção da variabilidade existente em uma população segregante que é de natureza genética.

  • Quanto maior a herdabilidade maior o controle genético.

  • Indica a facilidade de se praticar o melhoramento daquele carácter.

\(h^2 = \frac{\sigma_g^2}{\sigma_p^2}\)

\(\sigma_g^2\): Variância genética

\(\sigma_p^2\):Variância fenotipíca

Análises multivariadas

Abordagens multivariadas

1 Porque utilizar?

Análises Multivariadas

Porque utilizar?

  1. Analisamos experimentos de pesquisa com muitas variáveis.
  2. Analisamos variáveis com abordagens UNIVARIADAS (ANOVA).
  • Obtenção de relações/correlações sobre as nossas variáveis.

  • Exploração de dados.

  • Identificar padrões (ex: agrupamento de genótipos).

Componentes Principais (PCAs)

Componentes Principais (PCAs)

Objetivos

  1. Identificar variáveis que causam maior impacto/variabilidade no experimento.

  2. Investigar a associação entre váriavéis e tratamentos.

Azam, et al., 2023.

Componentes Principais (PCAs)

  • Consiste em transformar um conjunto original de variáveis em outro conjunto;

  • Cada componente é uma combinação linear das variáveis originais;

  • São independentes entre si e retêm o máximo da variação possível;

  • Por exemplo, uma matriz de 100 observações e 50 variáveis pode ser reduzida a 100 observações em 5 ou menos componentes.

  • Esses componentes podem ser considerados como “super-variáveis” feitas de combinações altamente correlacionadas das 50 variáveis iniciais.

Componentes Principais (PCAs)

Pontos importantes

  • Não possuem correlação entre si. (Correlação entre PCA1 e PCA2 = 0).

  • A maior retenção da variação sempre será no PCA1.

  • Recomendação: variação PCA1 e PCA2 > 80%.

Componentes Principais (PCAs)

Autovetores

  • São conjuntos de valores que representam o peso de cada variável original sobre cada componente.

  • Os autovetores são escalados como coeficientes de correlação e variam de +1,0 a -1,0 (passando pelo zero).

  • Para cada componente, todas as variáveis têm um conjunto de autovetores correspondentes, e quanto mais próximo de +1,0 ou -1,0 está o autovetor, mais importante é a variável para o componente.

Autovetores

Azam, et al., 2023.

Componentes Principais (PCAs)

Autovalores

  • São valores que representam a contribuição relativa de cada componente na explicação da variação total dos dados.

  • Existe um autovalor para cada componente, e o tamanho do autovalor para o componente é uma indicação direta da importância do componente na explicação da variação total dentro do conjunto de dados.

  • Ou seja, o autovalor explica a importância do componente sobre a variação total dos dados.

Autovalores

Azam, et al., 2023.

Componentes Principais (PCAs)

Importante

  1. Se o experimento não tiver repetições é a abordagem ideal.
  2. É necessário padronizar os dados para ficarem na mesma escala.

\[ Z = \frac{\text{Dado bruto} - \text{Média}}{\text{Desvio padrão}} \]

Análise de Grupamento

Análise de Grupamento

Objetivos

  1. Agrupar os indivíduos (genótipos) que possuem maior similaridade/dissimilaridade genética.

Azam, et al., 2023- Distância euclidiana e grupamento de Ward.

1° Etapa

Decisão da medida de distância

  1. Experimento tem repetições? Sim >

  2. Houve atendimento dos pressupostos? Sim >

  3. Distância Generalizada de Mahalanobis.

  4. Leva em consideração matriz de variâncias e covariâncias residuais (QMR).

1° Etapa

Decisão da medida de distância

  1. Experimento tem repetições? Não >

  2. Houve atendimento dos pressupostos? Não >

  3. Distância Euclidiana Média.

2° Etapa

Decisão do método de grupamento

  • Ward:

    Baseia-se na minimização da soma dos quadrados das diferenças dentro dos clusters.

  • Em vez de simplesmente usar a média das distâncias, o método de Ward forma grupos que minimizam a soma dos quadrados dentro dos grupos.

  • UPGMA: Unweighted Pair Group Method using Arithmetic averages

  • Utiliza a média aritmética não ponderada das distâncias entre todos os pares de elementos de diferentes grupos para formar novos clusters.

  • Cada par de elementos de dois grupos é considerado igualmente importante.

3º Etapa

  1. Número ótimo de clusteres
  • Mojena (1977): é um método para determinar o número ótimo de clusters em análise hierárquica, usando um ponto de corte baseado em média e desvio padrão das distâncias de aglomeração.

  • k é um fator constante sugerido por Mojena, que normalmente assume valores entre 1,25.

  1. Correlação cofonética (cc)
  • Compara as distâncias cofonéticas e as distâncias originais entre os dados.

  • Essa correlação ajuda a avaliar a qualidade do agrupamento hierárquico. Quanto mais alta a correlação (próxima de 1), melhor a representação do agrupamento original pelo dendrograma.

Muito Obrigada!