CCA 简介
典型关联分析(CCA)原理总结
文章是专业的描述,我按照我的理解简单写一下:
CCA 可以将高维的数据(比如丰度数据和表型数据)降维,然后进行相关性分析,降维的标准是降维后两组数据的相关系数最大,大概知道这么一个结论就可以了。
折腾了好久时间,本来是用 vegan 包的结果来画,结果发现如果这样的话, 个性化调整图片很难(比如将中间文件转用 ggplot2 画),查着查着就发现只用 ggplot2 也可以画,用的是 ggvegan 这个包。最后花了一段时间用来调整图片的细节问题,比如给个体代表的点按照组别上色,是否画物种以及如何加物种标签(结果发现物种多的时候,会显得很乱… 于是就暂时放弃了),接下来是代码:
1 | library("ggvegan") |
物种可以取丰度前 10 的进行分析(得看项目的具体情况)
https://mp.weixin.qq.com/s/urMdWn5Jf2Ia8CdK9jEsgA
上图的CCA分析结果图,图中箭头代表不同的环境因子,红色的代表不同的微生物,绿色的代表不同的样本(当然这个图可以只展示样本和和环境因子2种)。
环境因子的箭头的长度代表相应的环境因子与研究对象(样品,微生物)相关程度的大小,越长代表其对所研究对象(样品,微生物)的分布影响越大。箭头连线之间的夹角的代表其相关性,为锐角是说明2个环境因子之间是正相关,钝角是负相关。
表型因子也可以进行提前筛选
https://mp.weixin.qq.com/s/Mn12azkNPNEHSK9tjiFYng
参考链接
https://stackoverflow.com/questions/28682405/r-visualize-cca-plot-in-ggplot
https://rdrr.io/github/gavinsimpson/ggvegan/man/autoplot.cca.html
https://github.com/gavinsimpson/ggvegan/issues/9
r - Label points in geom_point - Stack Overflow