当前位置 首页> 科易专栏> > 正文

圈图 | 不同品种的基因型数据绘制PCA图和聚类分析图

圈图 基因型 绘制
邓飞    2021-04-01    2249

PCA是降维的一种方法。


本次再增加一下聚类的形式。


很多软件可以分析PCA,这里介绍一下使用plink软件和R语言,进行PCA分析,并且使用ggplot2绘制2D和3D的PCA图。


绘制后的图如下:


2-D PCA图:

图片.png

图片解释,将每个品种用不同的颜色表示,同时绘制置信区间圆圈,X坐标是PC1,解释24.9%的变异,Y坐标是PC2,解释10.61%的变异。可以看到,三个品种在PCA图里面分的比较开,C品种的有两个A和B的点,应该是异常数据。


3-D PCA图:

图片解释,将每个品种用不同的颜色表示,X坐标是PC1,解释24.9%的变异,Y坐标是PC2,解释10.61%的变异,Z坐标是PC3,解释1.02%的变异。可以看到,三个品种在PCA图里面分的比较开,C品种的有两个A和B的点,应该是异常数据。


基因型数据:


共有3个品种A,B,C,共有412个个体。其中:

  • A品种有200个体

  • B品种有100个体

  • C品种有112个体



$ wc -l re2.ped412 re2.ped

SNP个数为:41013



$ wc -l re2.map41013 re2.map


计算思路:


1,对数据进行清洗,将其转化为0,1,2的形式

2,计算G矩阵

3,计算PCA的特征向量和特征值

4,根据特征值计算解释百分比

5,根据特征向量和品种标签,进行PCA的绘制


绘制代码如下:


首先,使用plink命令,将基因型数据转化为012的raw格式:


plink --file re2 --recodeA

结果生成plink.raw文件。


然后使用R语言,计算PCA,并绘制PCA图。





























































读取数据m012 = fread("plink.raw")
# 保留FID,IID和基因型数据g012 = m012[,-c(3:6)]dim(g012)fid = g012$FIDiid = g012$IIDlibrary(sommer)
# 整理格式,计算G矩阵setDF(g012)rownames(g012) = g012$IIDg012$IID = NULLg012$FID = NULLGmat = A.mat(g012-1)
# 计算特征值和特征向量re = eigen(Gmat)
# 计算解释百分比por = re$values/sum(re$values)
# 整理格式pca_re1 = re$vectors[,1:3]pca_re2 = data.frame(pca_re1,Ind = iid)pca_re2$Gen = fid
# 把PCA1,PC2,PC2的j解释百分比,命名为相应的轴xlab = paste0("PC1(",round(por[1]*100,2),"%)")ylab = paste0("PC2(",round(por[2]*100,2),"%)")zlab = paste0("PC3(",round(por[3]*100,2),"%)")
# 绘制2-D PCA图ggplot(pca_re2, aes(x=X1, y=X2,color=Gen))  + geom_point(size=2) +  # stat_ellipse(level = 0.95, size = 1) +  stat_ellipse(aes(fill=Gen),               type ="norm", geom ="polygon",alpha=0.2,color=NA)+  geom_hline(yintercept = 0)  + # 添加x坐标  geom_vline(xintercept = 0) + # 添加y坐标  labs(x = xlab,y = ylab,color="")+  guides(fill=F)+  theme_bw() # 主题
# 绘制3-D PCA图library(scatterplot3d)pca_re2 = pca_re2 %>% mutate(colour = case_when(  Gen == "A" ~ "red",  Gen == "B" ~ "green",  Gen == "C" ~ "blue",))
scatterplot3d(pca_re2[,1:3],color=pca_re2$colour,              pch = 16,angle=30,              box=T,type="p",              xlab = xlab, ylab = ylab, zlab = zlab,main = "3D PCA Plot",              lty.hide=2,lty.grid = 2)
legend("topright",c("A","B","C"),fill=c('red','green',"blue"))


聚类分析思路:


1,计算个体的亲缘关系矩阵G矩阵

2,因为数据太多,随机选择100个,用于聚类







n = sample(1:384,100)Gmat1 = Gmat[n,n]library(ggtree)library(amap)clu <- hclusterpar(Gmat1)


默认的作图,太挤。


ggtree(clu)+geom_tiplab2(offset=0.3)

图片

画圈图:

ggtree(clu,layout = "circular")+geom_tiplab2(offset=0.1)

图片.png

可以看到,A,B,C三个品种,可以分开,分得很开。

本文来自微信公众号【育种数据分析之放飞自我】公众号ID:R-breeding;未经许可谢绝二次转载至其他网站。

我要收藏
本文为专栏作者授权科易网发表,版权归原作者所有。文章系作者个人观点,不代表科易网立场,转载请联系原作者。如有任何疑问,请联系ky@1633.com。

想要拥有性能优异、光电性能好的半导体薄膜吗?试试我们的溶胶-凝胶法制备(002)取向的透明导电掺铝氧化锌(AZO)薄膜~

相关推荐
新型环保清淤设备
随着社会和科技的快速发展,国家对环保的要求也逐渐升高,新《环保法》、《水污染防治法》等法律法规的贯彻实施,对环境污染的打击力度越来越大,人们对环境的需求也日渐增长,现用的设备已经没有办法满足需求,所以新型环保清淤设备孕育而生。 针对江河、湖海、城市管道里的淤泥,进行处理,使其能达到绿色化、环保化、无害化、减量化与资源化;通过进行生物除臭,物理调节,达到现场基本无味。 产品核心竞争力: (1)实用性强:针对江河、湖海、城市管道里的淤泥,进行处理,使其能达到绿色化、环保化、无害化、减量化与资源化;通过进行生物除臭,物理调节,达到现场基本无味。 (2)应用范围广:能对化粪池污水清理、养殖场污水清理、石材厂污水清理、集水井污水清理、生活污水处理厂含泥污水清理、垃圾楼渗透液处理、内河和公园湖泊黑臭水处理、突发水污染事故应急处理。 (3)变废为宝:产出物可以用作制砖原料、高肥效的土地利用原料(例如:农用、绿化、草地、土壤改良、土壤修复、矿山修复)。 (4)效率高:能进行连续不间歇处理,效率大大提升;自带发电机,能在野外以及无电区域进行清淤处理;具有特殊的除渣功能能对石子、砖头、塑料袋、金属等进行分离,实现初级脱水,使污水得到净化。 (5)运行成本低:可以实现少人化生产,综合成本更低,外加效益更高。 (6)绿色环保:通过对江河、湖海、城市管道进行清淤以及废料(泥与沙)二次利用,实现资源循环利用,从污水源头治理,减少二次污染。
领域:生态环境建设与保护技术
基于边缘人工智能技术的智能云联网平台
基于边缘人工智能技术的智能云联网平台是基于5G通信,人工智能,边缘计算等技术,面向智慧城市,工业制造,能源电力等领域构建的高清视频AI应用能力平台,平台支持大容量,高并发,低延时的视频数据的接入,分析,存储、检索和转发,平台采用微服务分布式架构,可以实现应用与算法,软件和硬件双解耦。为行业用户提供融合感知,云边协同,统一管理的全栈式视频智能分析服务,加速行业的数字化转型。
领域:物联网设备、部件及组网技术
自动化解决方案
公司业务涵盖军工领域、汽车制造、工程机械、石油电力、机床管理、压力容器、五金卫浴、轨道交通等行业,为用户提供最佳的自动化解决方案,为用户提供最佳的机床自动生产系统,根据用户产品的工艺特点协助用户选择生产设备,帮助用户规划所需的生产布局及配套的自动化物流,为机床在生产过程中实现自动化上下料、衔接各设备之间的物料自动化周转、装配及定位等作业。实现工厂由自动化-智能化-无人化生产的转变。主要涉及各种数控加工设备、锻压机、冲床、折弯机、浇注机等的自动化智能解决方案。
领域:工业生产过程综合自动化控制系统技术
国际流体动力零部件系统化服务商
公司专注于流体动力零部件研发和装备制造,是集流体力学计算与仿真、流体动力零部件后处理和检测于一体的系统化解决方案服务商和定制化装备制造商。目标产品包括:航发燃油喷嘴、叶冷却流道气膜孔及外表面、冷端转子;航空航天液压动力控制壳体、泵体、阀体和作动器;航空航天发动机复杂油路和冷却流道;核/能源微型反应器、传感器及热交换器;机加件相交孔自动化去毛刺设备等。主营业务围绕技术项目联合攻关和成果布局,包括微细异形大长径比内流道光整加工及深度清洁、流体动力特性测试平台开发、高压液压推力装置定制化开发。
领域:高端装备再制造技术
高智能化双臂机器人
公司致力于研发高智能集群机器人系统,机器人具有 “ 手 、 足 、 眼 、 脑 ” ,基于高速动态移动视觉定位关键技术;机械臂可自主更换电池,视觉精准识别电池的位置,全流程实现无人化智能作业:1.装载外卖;2.更换电池;3.取出外卖。
领域:机器人
建筑及机电声学认知检测及智能声学产品系统研发及产业化
项目利用振动及声学传播的特性,依据专业声学测试分析方法,结合建筑机电、通风设备的特有声音频率,快速准确实现各种设备噪声的检测与分类,实现精准的产品研发配套,有效解决机电设备环境噪声的干扰,实现人居环境尤其是商业酒店、综合体及公共场所的声品质提升,给城市、商业建筑、酒店及公共场所的通风、制冷系统装上一套“无声的装备”。 项目优势: 1、市场前景广:振动声学市场巨大,重点文旅产业的基础设施-声学产品(防火隔声门、通风隔声消声百叶窗、浮筑地台等)及技术配套; 2、技术水平领先:引进国外IAC先进技术并消化吸收,国际品牌、外资企业资深技术团队及管理团队,技术及产品体系、资源体系完善; 3、行业布局深入:已经建立起与上游客户稳定的业务关系,与科研院所进行产研学一体化合作,与行业内北京、上海、深圳资深外资机电及声学顾问、设计院已经建立起稳定的业务对接,合作共赢; 4、团队项目业绩突出:参与一些国家重大项目建设,团队经验非常丰富。
领域:网络应用技术
超声靶向造影的用途
超声靶向造影的用途
超声靶向造影是一种医学检查方法,其通过注射一种含有组织特异性靶标分子的超声造影剂,使造影剂聚集在靶器官或组织处,从而增强声学信号,实现定性和定量分析活体组织细胞、分子水平的生理及病理变化过程或局部靶向治疗的目的。
关键词:超声造影,卵巢癌,拟态
聚乳酸(PLA)产业研究动态
聚乳酸(PLA)产业研究动态
以聚乳酸(PLA)、竹粉为主要原料,通过双螺杆挤出工艺制备竹粉—聚乳酸(PLA)复合材料,研究了不同目数的竹粉及马兰酸酐接枝前后竹粉对竹粉—聚乳酸(PLA)复合材料的物理力学性能及相容性的影响。
关键词:双螺杆挤出,PLA,工艺制备,竹粉
氨法脱硫硫技术专家推荐
氨法脱硫硫技术专家推荐
氨法脱硫是一种高效的湿法脱硫方式,它采用氨作为脱硫剂,通过气液相反应来实现对烟气中二氧化硫的净化。具体原理是将液氨与水混合配制成为一定浓度的氨水,然后将氨水引入脱硫塔中,与锅炉烟气中的二氧化硫发生反应,生成亚硫酸铵。再通过氧化风机不断注入空气,将亚硫酸铵氧化成硫酸铵,从而实现对烟气中二氧化硫的净化。
关键词:离子对,复合电极,氨法脱硫
弯拉弹性模量专利申请
弯拉弹性模量专利申请
通过对几种贫混凝土:碾压贫混凝土、振捣式贫混凝土、掺粉煤灰贫混凝土的弯拉强度与弯拉弹性模量的试验,研究分析了贫混凝土基层材料弯拉弹性模量的特性。试验采用小梁试件进行三分点加荷的方式,测定3kN至50%极限荷载处的割线模量,用跨中挠度公式反算求得。
关键词:混凝土基层,弹性模量,掺粉煤灰
找乳酸盐类/血液技术开发服务商
找乳酸盐类/血液技术开发服务商
乳酸盐在血液中扮演着重要的角色。首先,乳酸盐在运动过程中可能影响局部和中央的血流量。当运动开始时,乳酸盐释放到血液循环中,能够促进血管舒张,提高血液含氧量,确保氧气能够有效地输送到活跃的肌肉中,以满足运动状态下组织的各种需求。
关键词:动物血,血乳酸,乳酸
脑源性神经营养因子(BDNF)产学研合作资源
脑源性神经营养因子(BDNF)产学研合作资源
脑源性神经营养因子(brain-derived neurotrophic factor,BDNF)是1982年Barde等首先在猪脑中发现的一种具有神经营养作用的蛋白质。这是一种在大脑内合成的蛋白质,对神经元的存活、分化以及正常功能的维持起到重要作用。它广泛分布于中枢神经系统,特别是在海马和皮质的含量最高。
关键词:BDNF,阿尔茨海默,脑源性神经营养因子
敏感蛋白产业研究动态
敏感蛋白产业研究动态
测定30个不同麦芽样品的总氮、可溶性氮、库值、总酚含量以及对应麦汁敏感蛋白及敏感多酚含量,并对结果进行相关性分析发现,麦汁敏感蛋白含量与麦芽可溶性氮呈显著正相关(r=0.686,p0.01),麦汁敏感多酚含量与麦芽总酚呈显著正相关(r=0.646,p0.01),表明麦芽可溶性氮与总酚指标可初步用于评价麦汁中敏感蛋白与敏感多酚含量;
关键词:麦芽,总酚含量,多酚,总氮
桥博技术哪里有?
桥博技术哪里有?
在铁路桥梁建设中,单箱单室预应力混凝土连续箱梁较为普遍。在进行设计计算时,一般是把三维空间桥梁结构进行简化,在纵向和横向分别对桥梁进行平面杆系计算。
关键词:三维空间,预应力混凝土,铁路桥梁,连续箱梁
服务精选
服务案例
官方社群
标签