当前位置 首页> 科易专栏> > 正文

GWAS问题答疑

问题
邓飞    2021-05-10    904

昨天一个小伙伴给我写了封信,问我了几个GWAS的问题,我就回信说,答案可以写一下公众号了。

这不,就来了。

邓老师,您好,看了好多博文,学到好多,最近看一些GWAS原理相关的内容,有些疑惑。想请教一下。

1、GWAS分析基本都是基于回归分析,分析时势必会将序列转化为012编码的基因型,这个编码格式什么规格?Major allel 0;杂合1;minor allel :2?,还是其他规则?仅考虑加性模型。

2、看这个好多软件大多都支持Plink的格式,是否在其他软件(GAPIT、GEMMA等?)进行转化过程中也遵循Plink的编码格式?

3、我是做植物的,GAPIT计算结果输出的Effect 是否就是PlinkGLM模型中的beta值?都表示回归系数?代表单个位点的改变性状的变化?

4、回归系数反应优异等位基因的来源,这和常用的VCF文件中的REF 和ALT 基因型有没有对比,是否Major allel一定是REF,而Minor allel基因型一定是ALT基因型?

十分感谢!

「第一个问题:GWAS中0-1-2的编码?」

应该都是采用这样的编码:主等位基因纯合编码为0,杂合为1,次等位基因纯合编码为2。

看一下plink的官网说明:

--recode creates a new text fileset, after applying sample/variant filters and other operations. By default, the fileset includes a .ped and a .map file, readable with --file.

The '12' modifier causes A1 (usually minor) alleles to be coded as '1' and A2 alleles to be coded as '2', while '01' maps A1→0 and A2→1. (PLINK forces you to combine '01' with --[output-]missing-genotype when this is necessary to prevent missing genotypes from becoming indistinguishable from A1 calls.) The '23' modifier causes a 23andMe-formatted file to be generated. This can only be used on a single sample's data (a one-line --keep file may come in handy here). There is currently no special handling of the XY pseudo-autosomal region. The 'AD' modifier causes an additive (0/1/2) + dominant (het = 1, otherwise 0) component file, suitable for loading from R, to be generated. 'A' is the same, except without the dominance component. By default, A1 alleles are counted; this can be customized with --recode-allele. --recode-allele's input file should have variant IDs in the first column and allele IDs in the second. By default, the header line for .raw files only names the counted alleles. To include the alternate allele codes as well, add the 'include-alt' modifier. Haploid additive components are 0/2-valued instead of 0/1-valued, to maintain a consistent scale on the X chromosome.

测试一下,手动生成一个模拟的plink文件

「ped数据:」

1 1 0 0 1  0  G G  2 2  C C
1 2 0 0 2  0  A G  0 0  A C
1 3 1 2 1  2  0 0  1 2  A C
2 1 0 0 1  0  G G  2 2  0 0
2 2 0 0 2  2  A A  2 2  0 0
2 3 1 2 1  2  G G  2 2  C C

「map数据:」

1 snp1 0 1
1 snp2 0 2
1 snp3 0 3

「查看一下频率:」

plink命令:

plink --file tt --freq --out re1

结果:

$ cat re1.frq
CHR  SNP   A1   A2          MAF  NCHROBS
  1 snp1    A    G        0.375        8
  1 snp2    1    2            0        6
  1 snp3    A    C         0.25        4

结果中,A1是次等位基因,A2是主等位基因。

「转化为0-1-2的形式:」

plink命令:

plink --file tt --recodeA --out re2

结果:

FID IID PAT MAT SEX PHENOTYPE snp1_A snp2_1 snp3_A
1 1 0 0 1 -9 0 0 0
1 2 0 0 2 -9 1 NA 1
1 3 1 2 1 2 NA 1 1
2 1 0 0 1 -9 0 0 NA
2 2 0 0 2 2 2 0 NA
2 3 1 2 1 2 0 0 0

可以看到第一个SNP,G为主等位基因,纯合的编码为0,杂合的编码为1,次等位纯合编码为2.

第二个问题:其它软件是否也是这样的编码形式?

应该是这样的。

「plink编码:」

plink上面已经介绍过了。

「GAPIT编码:」下面我们看一下GAPIT的说明: data-tool="mdnice编辑器" style="margin: 10px 0px; padding: 8px 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; clear: both; min-height: 1em; line-height: 26px; font-size: 14px; word-spacing: 2px;">「GEMMA编码:」下面我们看一下GEMMA的说明: data-tool="mdnice编辑器" style="margin: 20px 0px; padding: 0px; font-weight: bold; font-size: 17px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; color: black; text-align: center;">第三个问题:GAPIT输出的Effect和plink中GLM中的beta是否一样?

一样,都是回归系数。

不同的是,GAPIT用的是MLM模型,而plink用的是GLM模型,他们都是利用单位点作为数字协变量计算回归系数(effect)的显著性(pvalue)。

第四个问题:等位基因变化

等位基因变化,与VCF中的REF和ALT,是否REF一定是major,而ALT一定是minor 不是的,major和minor是根据GWAS的群体计算的,与VCF中的REF和ALT不一定对应

所以,上面算是回答吧。

本文来自微信公众号【育种数据分析之放飞自我】公众号ID:R-breeding;未经许可谢绝二次转载至其他网站。

我要收藏
本文为专栏作者授权科易网发表,版权归原作者所有。文章系作者个人观点,不代表科易网立场,转载请联系原作者。如有任何疑问,请联系ky@1633.com。

你是否还在为抽油机系统的高成本、短寿命、稳定性差等问题而烦恼?点击查看技术

相关推荐
激光质子刀关键技术突破及激光器产业化
质子疗法是肿瘤放射治疗的一种,该疗法将氢原子核中的质子通过粒子加速器释放高能量射线进行治疗。 由于质子束在组织中独特的吸收曲线(称为布拉格峰),它可以提供更好的剂量分布,允许在肿瘤部位沉积最大的破坏性能量,同时最大限度地减少沿路径对健康组织的损害。 全球首创激光驱动的离子加速:相比于目前质子疗法使用的传统加速器,激光驱动的离子束加速梯度高,能在很短的距离加速到很高的能量,具有源尺寸小、脉冲短、亮度高和能谱宽等特点,在等离子体电磁场诊断、核聚变质子快点火、质子照相、癌症治疗和温稠密物质产生等方面有着广阔的应用前景。 全国产化,全球顶尖的下一代小型化激光质子刀,既完成了对传统放疗的替代,又实现了对大型加速设备的源头创新,引发成本革命,是解决商业化痛点的终局方案。
领域:新型治疗、急救与康复技术
智慧林长制全面解决方案
林长制是以保护发展森林等生态资源为目标, 以压实地方党委政府领导干部责任为核心, 以制度体系建设为保障, 以监督考核为手段, 构建由地方党委政府主要领导担任总林长, 省、市、县、乡、村分级设立林(草)长, 聚焦森林草原资源保护发展重点难点工作, 实现党委领导、党政同责、属地负责、部门协同、全域覆盖、源头治理的长效责任体系。 公司的核心技术团队均有十余年从事“智慧城市”领域的经验,具备新型智慧林业顶层设计、全面解决方案、项目研发及实施的全过程管理能力;主导和参与的项目累计金额达数亿元。 公司具备测绘高级工程师、信息化中高级工程师、系统集成等中高级工程师数十人;具有地方标准和行业标准制定能力和丰富的经验;核心成员曾主导及参与出版发行行业信息化专著。 公司主营业务是智慧/数字林业,围绕林业系统的相关业务,是林业行业领域,提供智慧林长制全面解决方案的服务商。
领域:物联网应用软件
基于高性能音频芯片的新能源电机监测设备
新能源汽车、航空航天、电机系统相关领域,人力检测、侵入式检测等传统检测模式存在三大关键痛点:诊断难、局限高、误差大,这些问题存在将导致检测失真、时延。项目要实现的目标:降低停机时间、提高生产效率、预防潜在故障、节约维护成本,实现全面的生产优化。项目基于波束形成技术的声像学传感器阵列、高能效AI音频芯片、新能源汽车/电力系统行业声纹库及相关硬件进行研发,仅需一套设备 + 一台电脑就可以精准定位检测故障成因,优势体现在支持精准、毫秒级响应,不停机、降低检修浪费,便携不伤机。
领域:高性能、智能化仪器仪表
物理灭蚊系统开发
秉承中国本土发展方针,以节能环保为主题思想,与自然生态环境相结合,开发和研究为改善人类生活质量的可持续发展产品。公司目前主营产品为太阳能户外灭蚊灯,工程户外灭蚊系统,户外灭蚊灯,家用灭蚊灯,甲醛处理器,车载净化器和中央空气循环净化系统等。产品主要配套服务于市政园林工程,房地产物业小区,公园,酒店,渡假村,学校和医院等。 致力于利用仿生学原理实施形成诱蚊、灭蚊辐射圈,覆盖式整体灭蚊、控蚊技术满足了用户对于户外大范围灭蚊的需求。公司主要团队研究高端生物蚊虫管理系统已超过10年。在帮助市政、学校、物业小区、别墅花园和各地蚊虫控制中心提供蚊虫监视器来控制蚊虫引发的疾病,先后研发出高效灭蚊产品,结合利用光波、气味、体温模拟来吸引蚊虫的消费型捕蚊器,用科学创新概念针对蚊虫害研发新一代的技术和产品并获得国家认可多项专利,产品具有安全、高效、环保、智能诸多优点。
领域:生态环境建设与保护技术
空海跨介质航行器产业化先行者
公司致力成为空海跨介质航行器系统开拓者,设计的航行器可以在水和空气两种不同流体介质间适应性地实现运动过渡,充分利用飞行器高机动性以及水下高隐蔽优势,解决空、海领域的跨域范围的侦察、海洋巡检、快速搜救等实际需求问题。项目着力于突破重点技术,主要研究内容包括:(1)跨介质航行器不同流体介质间的结构以及动力技术;(2)针对跨介质及海洋风浪的复杂环境下航行器多工作模式快速切换技术;(3)面向水下复杂环境的感知以及识别技术。产品以科技创新为主,打造了纵列式双旋翼可重构跨介质航行器。该航行器可搭载单波束声呐、侧扫声呐、水质检测仪、核辐射剂量仪等设备载荷,实现近海大范围远距离无人化高效率巡检和作业,为海上风电、海洋牧场、海上平台等提供更快、更全面的一体化作业设备。公司在“扎根技术,纵深产品”的战略驱动下,将全面推进“空—水”一体化智能场景的应用升级,为海洋可持续发展赋能。
领域:海洋工程装备设计制造技术
轻量化“数字孪生”3D引擎推动企业数字化转型发展
公司在 “数字孪生”核心支撑技术—3D轻量化领域已耕耘多年,形成了极具门槛的核心技术积累。截止目前,已为国内超过400家客户,涵盖制造业、工程建筑行业、高等院校,提供了3D轻量化产品及技术服务,应用于近500多个重大项目或系统平台建设。 主要产品与服务有: (1) 3D/BIM/GIS轻量化融合引擎(WebGL/服务器端渲染); (2) BIM/GIS施工管理平台; (3) CAD图纸轻量化引擎(WebGL); (4) 图模管理协同平台; (5) 汇报演示系统; (6) 图模查看工具; (7) 3D可视化沙盘搭建系统; (8) 搭建智慧工厂、化工、矿山、电力领域的3D设备模型交易平台。
领域:Web服务与集成软件
自动投切专利申请
自动投切专利申请
自动投切是通过自动装置来实现的。这种装置能够根据电网的运行状态,通过感应器对电容器的运行进行自动调控,并在需要时自动进行投切。自动投切装置在电力系统中有着广泛的应用,包括重要机房、计算机房等关键设备的电力保障,电力系统中重要设备、通信设备的备用电源,以及火灾、地震等紧急情况下的电力供应保障。
关键词:自动投切,实现方式,并联电容器
口令码变换算法的用途
口令码变换算法的用途
口令码变换算法通常涉及一系列的操作,用于将原始口令转换为另一种形式,以增强安全性或满足特定的应用需求。
关键词:保密,加解密,大型企业,财会
半刚性基层底拉应力研发方向
半刚性基层底拉应力研发方向
半刚性基层底拉应力是指半刚性路面基层底面在行车荷载作用下产生的拉应力。在路面结构中,半刚性基层起到提高整体承载能力并降低土基承受的荷载强度的作用。然而,半刚性基层本身的拉应力相对集中,若超过极限则可能导致路面结构损坏。
关键词:正交试验,底基层,半刚性基层,设计参数,拉应力,半刚性基层底拉应力
空压机组技术哪里有?
空压机组技术哪里有?
空压机组是一种将机械能转换成气体压力能的能源转换装备,主要由泵头组件、气罐组件和管阀组件等部分组成。泵头组件是空压机的核心部件,主要负责压缩空气,完成能量的转换;气罐组件是空压机的存储部件,负责储存压缩后的气体;管阀组件是空压机的输控部件,负责连接泵头和气罐输送气体,并控制气体流通。
关键词:城际动车组,实际应用,空压机组
直接横摆力矩控制技术哪里有?
直接横摆力矩控制技术哪里有?
直接横摆力矩控制(DYC)是一种车辆运动稳定的有效方法,它通过对车轮上纵向力的调节,直接构成对车辆质心的横摆力矩,以克服车辆的前轴或后轴侧滑,提高车辆的操纵稳定性。在车辆处于低附着系数路面、大侧向加速度等极限工况下行驶时,车轮上的侧偏力已处于饱和状态,此时无法单纯依靠转向控制来提高车辆的稳定性。然而,车轮上的纵向力往往还有很大的裕度可以被利用,DYC正是基于这一原理来提高车辆的操纵稳定性。
关键词:电机驱动,分布式驱动,横摆力矩,直接横摆力矩控制
碳酸盐含量的用途
碳酸盐含量的用途
碳酸盐含量主要指的是血液中的二氧化碳含量,这是人体新陈代谢产生的废气。通过测量呼气中的二氧化碳含量,可以确定碳酸盐含量,并用于计算氧合指数。在建筑材料、食品工业、医药和环保领域,碳酸盐都有着广泛的应用。
关键词:储层,岩心,体积分数,测井资料,塔拉,碳酸盐含量
畜牧产业发展现状
畜牧产业发展现状
畜牧产业是一个广泛且复杂的行业,涉及到多个方面。首先,从产业链的角度来看,畜牧产业包括上游的禽畜苗种、饲料、疫苗等,中游的养殖,以及下游的屠宰、产品加工等环节。其生产过程中,畜牧业主要利用畜等已经被人类驯化的动物,通过人工饲养、繁殖,使其将牧草和饲料等植物能转变为动物能,以取得肉、蛋、奶、羊毛、蚕丝和药材等畜产品。其次,畜牧业在中国的发展历史悠久,其发展历程可以追溯到远古时期。随着农业的发展,畜牧业逐渐成为了农业的重要组成部分。近年来,随着生物技术的发展和人们收入水平的提高,畜牧业在生态、经济和社会等方面的重要性得到了日益提高。
关键词:农牧民,农村经济,快速发展,增产增收,畜牧产业
手术仿真产业研究动态
手术仿真产业研究动态
手术仿真是一种结合计算机和虚拟现实技术的医学模拟方法,主要用于模拟一系列临床外科手术操作,以演示和指导与手术相关的各个过程。它在医学教育中发挥着重要作用,为医生提供了一个安全、灵活且标准化的平台,用于手术训练、手术规划以及术后虚拟康复训练等。
关键词:虚拟现实技术,外科手术,医学上,仿真虚拟,手术仿真
服务精选
服务案例
官方社群
标签