Abordagens essenciais para melhoristas


Contato
Analista de Dados SR na Suzano
Atuação: Genética e Melhoramento Florestal
LinkedIn: Jennifer Luz Lopes
Site
Slides
Scripts
Conta no Posit Cloud- Máquina do RStudio na nuvem (Se o R não funcionar).
E muita vontade de aprender!

Apresentação dos materiais
Objetivos do curso
Reprodutividade na pesquisa
Ambientação no RStudio
Manipulação de dados
Visualização de dados
Análise de dados experimentais
Delineamento em Apha Láttice
Modelos Lineares Mistos
Análises Multivariadas
Considerações finais
“É um conceito que não tem uma definição única e comum”.
“Para alguém fazer uma afirmação científica legítima, ele deve ser capaz de reproduzir totalmente seus resultados a partir de seus dados brutos (e de preferência outros devem ser capazes de reproduzi-los também)”.
Além de promover a confiança na ciência, a reprodutibilidade facilita a colaboração entre pesquisadores, permitindo que análises sejam revisadas, aprimoradas e adaptadas para outros contextos.
“Reprodutibilidade é como escovar os dentes. Isso é bom para você, mas leva tempo e esforço. Depois de aprender, torna-se um hábito.” - Irakli Loladze, Bryan College of Health Sciences em Lincoln, Nebraska.
Baker, M. 1,500 scientists lift the lid on reproducibility. Nature 533, 452–454 (2016). https://doi.org/10.1038/533452a
Documentação adequada dos métodos.
Disponibilização dos códigos utilizados para realizar as etapas de análise de dados de dados.
Allison horst.
Foi criado por Ross Ihaka e Robert Gentleman na Universidade de Auckland, Nova Zelândia, e anunciado em 1996;
R ganhou popularidade devido à sua flexibilidade e extensibilidade, tornando-se uma ferramenta indispensável para cientistas de dados, estatísticos e pesquisadores em todo o mundo;
CRAN - The Comprehensive R Archive Network, é uma rede de servidores ftp e web em todo o mundo que armazena versões idênticas e atualizadas de código e documentação para R;
Posit- Baixar a IDE e acessar a comunidades, blog, atualizações.
Acesso gratuito.
Todas as pessoas podem usar as melhores ferramentas independentemente do poder financeiro.
Estudantes podem usar as mesmas ferramentas que profissionais.
Você pode corrigir problemas e aprimorar a linguagem.
Você pode desenvolver suas próprias ferramentas.
Possibilita a existência de uma comunidade ativa.
Acesse o livro, ele é uma referência na Ciência de Dados.
Para que você comece a escrever os códigos ou seja “programar”, é necessário criar um arquivo R Script. Veja como abrir este arquivo, clicando em:
File> New File > R Script.
ATALHO: Ctrl + Shift + N.
File> New File > R Script. Ou use o atalho Ctrl + Shift + N.
Este é o ambiente do RStudio, ele é representado por quatro quadrantes, o editor, console, environment e output. A organização desses quadrantes pode ser alterada como você preferir;
1. Editor : onde você irá escrever e editar os scripts em R;
2. Console: permite a execução dos comandos em R;
3. Output (saída): exibe os resultados das operações realizadas no console;
4. Environment (ambiente): mostra os objetos (variáveis, funções) disponíveis na sessão R.
Quando você cria um novo arquivo de script R, um quarto painel deve aparecer no canto superior esquerdo do R Studio, como você pode ver na Figura abaixo. Salve esse arquivo na pasta que você escolher como código exemplo.
Pacotes são coleções de funções R, dados e código compilado em um formato bem definido;
Quando você instala o R, ele já vem com um conjunto padrão de pacotes que cobrem a maioria das operações e funcionalidades mais comuns, como soma, estruturas de controle, ajuste de modelos , dentre outros;
Pacotes nativos do R (Base R);
Pacotes adicionais precisam ser baixados do CRAN e instalados;
Atualmente temos aproximadamente ~21 mil pacotes no CRAN.
Pacotes de todas áreas, consulte no link abaixo.
Pacotes disponíveis no CRAN Task Views.
Para carregar é só digitar o nome do pacote, não é necessário utilizar aspas.
Output > Packages> Install > Digitar o nome do pacote
Nesta caso, é necessário instalar o pacote devtools(), depois dentro do parenteses é necessário colocar (“nome_do_repositótio/nome_do_pacote).
O tidyverse é uma coleção de pacotes R projetados para ciência de dados. Todos os pacotes compartilham uma filosofia de design, gramática e estruturas de dados subjacentes;
Você instalando o tidyverse, todos os outros pacotes também serão instalados;
Pacotes muito utilizados: dplyr | ggplo2 | forcast | TIBBLE | readr | stringr | tidyr | purrr.
🟣 Acesse a documentação: https://www.tidyverse.org/
tidyverseO pacote dplyr é uma gramática de manipulação de dados, fornecendo um conjunto consistente de verbos que ajudam a resolver os desafios mais comuns da manipulação de dados;
As funções dplyr sempre retornam uma cópia transformada da sua tabela;
Eles não mudarão sua tabela original, a menos que você solicite (salvando o nome da tabela original);
Isso é uma boa notícia, porque você deve sempre manter uma cópia limpa dos seus dados originais, caso algo dê errado.
🟣 Acesse a documentação: https://dplyr.tidyverse.org/
filter(): escolhe casos com base em seus valores
mutate(): cria colunas ou altera valores de uma coluna
select(): seleciona variáveis com base em seus nomes
summarise(): reduz vários valores a um único resumo
arrange(): altera a ordem das linhas
group_by(): agrupa linhas de valores iguais em uma coluna
join(): junta dois conjuntos de dados por meio de um ou mais campos em comum (chaves/keys)
Fonte: https://r4ds.hadley.nz/joins.
O ggplot2 é um pacote R para produzir gráficos estatísticos ou de dados;
Ao contrário da maioria dos outros pacotes gráficos, o ggplot2 possui uma gramática subjacente, baseado no livro The grammar of graphics (Wilkinson, 2005), que permite compor gráficos combinando componentes independentes;
Construção de gráficos complexos a partir de componentes básicos;
A principal referência deste pacote é o livro ggplot2: Elegant Graphics for Data Analysis (3e), escrito por Hadley Wickham.
Obtenção dos dados
Mapear aesthetic (aestética)
Escolher a geometric (geometria)
Escolher o theme (tema)
Fonte: Bruna Garbes | Link do material
Fonte: Bruna Garbes | Link do material
Manipulação
Modelagem
Resultados ( tabelas e gráficos)
Apresentação dos resultados
Tipo I: os blocos formam repetições (repetição de cada tratamento).
Tipo II: os blocos formam grupos de repetições (repetições tem mais de 1 ocorrência de cada tratamento).
Tipo III: sem formação de repetições ou grupos.
Parcialmente balanceados.
Látice e Alfa Láttice.
Aumentados de Federer.
Delineamento em Alpha Láttice. 55 tratamentos, 3 repetições e 5 blocos incompletos.
1Patterson e Williams (1976).
Nem todos os tratamentos aparecem em cada bloco.
Esse tipo de design é ideal para experimentos com um número elevado de tratamentos (genótipos/cultivares).
t = s*k
t: número de tratatamentos
r: número de repetições
k: número de blocos
s: número de blocos incompletos
Yijk= μ + αi + βj + (1∣rep:inc.bloco)jk + ϵijk
onde:
Yijk: valor observado da variável resposta para o genótipo i na réplica j e bloco incompleto k.
μ: média geral do experimento.
αi: efeito fixo do genótipo i.
βj: efeito fixo da réplica j.
(1∣rep:inc.bloco)jk: efeito aleatório dos blocos incompletos dentro de cada réplica, onde “rep: inc.bloco” indica que os blocos estão aninhados nas réplicas.
ϵijk: erro aleatório associado a cada observação, assumido com distribuição normal N(0,σ2).
Seleção de indivíduos superiores.
Corrige simultaneamente os dados para os efeitos ambientais, estima os parâmetros genéticos e prediz os valores genéticos.
Estimação dos componentes de variância - Restricted maximum likelihood REML.
Predição dos valores genéticos - Best linear unbiased prediction (BLUP).
Flexibilidade quanto ao balanceamento dos dados.
| ANOVA | Modelos Lineares Mistos | |
|---|---|---|
| 1 | Componentes da variância ANOVA |
Componentes da variância Restricted maximum likelihood REML |
| 2 | Componentes da média Média fenotípica via quadrados mínimos |
Componentes da média Média genética ou genotípica via Best linear unbiased prediction (BLUP) |
| 3 | Teste de significância Teste F da ANOVA |
Teste de significância Teste de LRT via Qui quadrado |
Xβ: termo de efeitos fixos, onde:
X: é a matriz de variáveis explicativas (design matrix) para os efeitos fixos.
β: representa os coeficientes (parâmetros) de efeitos fixos, que são constantes para cada nível do fator fixo.
Zγ: termo de efeitos aleatórios, onde:
Z: é a matriz de variáveis explicativas para os efeitos aleatórios.
γ: são os coeficientes para os efeitos aleatórios, considerados variáveis aleatórias.
ϵ: vetor de erros aleatórios residuais, com média zero e variância σ2, representando a variação não explicada pelo modelo.
Os níveis dos efeitos fixos são constantes e foram selecionados deliberadamente para o estudo.
A inferência e interpretação desses efeitos são válidas apenas para os níveis presentes no experimento, como um conjunto específico de tratamentos ou genótipos em um experimento.
Um exemplo é a comparação entre diferentes fertilizantes: os fertilizantes são níveis fixos, escolhidos intencionalmente.
Hipótese a ser testada: verificar se há diferenças significativas entre os níveis, H0:β1=β2=…=βn.
Os níveis dos efeitos aleatórios são amostras de uma população maior e são tratados como variáveis aleatórias.
A inferência é válida para toda a população da qual os níveis são amostrados, permitindo generalizações além dos níveis específicos do estudo.
Um exemplo é o uso de blocos incompletos em um experimento: cada bloco representa uma amostra da variabilidade espacial do campo.
Hipótese a ser testada: verifica se a variabilidade entre os níveis é significativa, formulada como H0:σ2= 0, onde σ2 é a variância do efeito aleatório.
Restricted maximum likelihood- REML
Máxima verossimilhança restrita- REML
y = Xb + Zg + Wp + e
Variancia genética (σ2g)
Variância interação GxE (σ2ge)
Variância residual (σ2res)
Restricted maximum likelihood REML- Função da Distribuição Normal
Modelagem da variância genética e ambiental: assumimos como normalmente distribuidos. Para variáveis quantitativas, a variação ao redor de uma média esperada (como a média de produtividade) segue um padrão simétrico e contínuo, o que facilita a estimativa desses componentes.
O REML considera essa normalidade para gerar estimativas mais precisas de componentes da variância para dados balanceados ou desbalanceados.
É base por exemplo, para calcular a probabilidade de que a diferença entre genótipos se deva a variação genética e não a erros experimentais (modelagem assumindo a distribuição normal).
\[ f(x)=\frac{1}{\left(\sigma \sqrt{2\pi }\right)}\cdot e^{\left(\frac{-1}{2}\left(\frac{(x-\mu )}{\sigma }\right)^{2}\right)} \]
Superfície tridimensional de uma função de verossimilhança (REML)
Essa superfície representa a probabilidade de observar os dados para diferentes valores dos parâmetros μ e σ2 na distribuição normal.
Eixo μ: representa possíveis valores para a média dos dados.
Eixo σ2: representa a variância dos dados (g + ge + res).
Eixo like: pontos mais altos indicam combinações de μ e σ2 que tornam os dados observados mais prováveis. O REML busca maximizar essa função para obter as estimativas de μ e σ2 plausíveis.
Best linear unbiased prediction- BLUP
Melhor previsão linear imparcial - BLUP
Estimar os efeitos genéticos associados a indivíduos ou grupos em uma população.
Isola o fator ambiental.
1 Equações de Henderson (década de 1950).
Best linear unbiased prediction- BLUP
y = Xb + Zg + e
X e Z são matrizes de design que relacionam observações com efeitos fixos e aleatórios, respectivamente.
b representa os coeficientes dos efeitos fixos (por exemplo, efeitos ambientais).
g representa os valores genéticos dos efeitos aleatórios (genótipos).
λ é o fator de ponderação que depende da razão entre variância residual e variância genética. ʎ = (1-ℎ2 ) / ℎ2
y é o vetor de observações (dados fenotípicos).
Best linear unbiased prediction- BLUP


| Componentes/parâmetro | Estimativa |
|---|---|
| \(\sigma_g^2\) | 25.3 |
| \(\sigma_res^2\) | 8.6 |
| \(\sigma_p^2\) | 33.5 |
| \(h^2 = \frac{\sigma_g^2}{\sigma_p^2}\) | 0.78 |
| μ | 15 |
BLUP: Predição de efeitos aleatórios, como valores genéticos, levando em conta a variabilidade genética e a herdabilidade do caráter.
*BLUE: Estimativa de parâmetros fixos, como médias ou coeficientes de efeitos fixos. (b1 e b2)
| Efeito | BLUP | BLUE |
| g1 | 5.5 |
| g2 | 4.9 |
| g3 | 5.0 |
| g4 | -3.3 |
| g5 | -5.0 |
| *b1 | 10.0 |
| *b2 | 12.3 |
Erro de predição (PEV) ou herdabilidade
\(\hat{r}_{\hat{g}g} = \sqrt{1 - \frac{\text{PEV}}{\sigma_g^2}}\)
\(\hat{r}_{\hat{g}g} = \sqrt{h^2}\)
1 Classificação:
Representa uma proporção da variabilidade existente em uma população segregante que é de natureza genética.
Quanto maior a herdabilidade maior o controle genético.
Indica a facilidade de se praticar o melhoramento daquele carácter.
\(h^2 = \frac{\sigma_g^2}{\sigma_p^2}\)
\(\sigma_g^2\): Variância genética
\(\sigma_p^2\):Variância fenotipíca
Porque utilizar?
Porque utilizar?Obtenção de relações/correlações sobre as nossas variáveis.
Exploração de dados.
Identificar padrões (ex: agrupamento de genótipos).
Identificar variáveis que causam maior impacto/variabilidade no experimento.
Investigar a associação entre váriavéis e tratamentos.
Azam, et al., 2023.
Consiste em transformar um conjunto original de variáveis em outro conjunto;
Cada componente é uma combinação linear das variáveis originais;
São independentes entre si e retêm o máximo da variação possível;
Por exemplo, uma matriz de 100 observações e 50 variáveis pode ser reduzida a 100 observações em 5 ou menos componentes.
Esses componentes podem ser considerados como “super-variáveis” feitas de combinações altamente correlacionadas das 50 variáveis iniciais.
Pontos importantes
Não possuem correlação entre si. (Correlação entre PCA1 e PCA2 = 0).
A maior retenção da variação sempre será no PCA1.
Recomendação: variação PCA1 e PCA2 > 80%.
São conjuntos de valores que representam o peso de cada variável original sobre cada componente.
Os autovetores são escalados como coeficientes de correlação e variam de +1,0 a -1,0 (passando pelo zero).
Para cada componente, todas as variáveis têm um conjunto de autovetores correspondentes, e quanto mais próximo de +1,0 ou -1,0 está o autovetor, mais importante é a variável para o componente.
Azam, et al., 2023.
São valores que representam a contribuição relativa de cada componente na explicação da variação total dos dados.
Existe um autovalor para cada componente, e o tamanho do autovalor para o componente é uma indicação direta da importância do componente na explicação da variação total dentro do conjunto de dados.
Ou seja, o autovalor explica a importância do componente sobre a variação total dos dados.
Azam, et al., 2023.
\[ Z = \frac{\text{Dado bruto} - \text{Média}}{\text{Desvio padrão}} \]
Azam, et al., 2023- Distância euclidiana e grupamento de Ward.
Experimento tem repetições? Sim >
Houve atendimento dos pressupostos? Sim >
Distância Generalizada de Mahalanobis.
Leva em consideração matriz de variâncias e covariâncias residuais (QMR).
Experimento tem repetições? Não >
Houve atendimento dos pressupostos? Não >
Distância Euclidiana Média.
Ward:
Baseia-se na minimização da soma dos quadrados das diferenças dentro dos clusters.
Em vez de simplesmente usar a média das distâncias, o método de Ward forma grupos que minimizam a soma dos quadrados dentro dos grupos.
UPGMA: Unweighted Pair Group Method using Arithmetic averages
Utiliza a média aritmética não ponderada das distâncias entre todos os pares de elementos de diferentes grupos para formar novos clusters.
Cada par de elementos de dois grupos é considerado igualmente importante.
Mojena (1977): é um método para determinar o número ótimo de clusters em análise hierárquica, usando um ponto de corte baseado em média e desvio padrão das distâncias de aglomeração.
k é um fator constante sugerido por Mojena, que normalmente assume valores entre 1,25.
Compara as distâncias cofonéticas e as distâncias originais entre os dados.
Essa correlação ajuda a avaliar a qualidade do agrupamento hierárquico. Quanto mais alta a correlação (próxima de 1), melhor a representação do agrupamento original pelo dendrograma.


