(通讯员:刘小磊、付玉华)近日,赵书红教授团队在《Nucleic Acids Research》期刊在线发表了题为“IAnimal: A cross-species omics knowledgebase for animals”的研究成果。本研究发布了国际规模最大的动物跨物种多组学知识库,对猪、鼠、鸡、狗等21个物种的WGS、RNA-Seq、ChIP-Seq、ATAC-Seq等生物多维组学数据以及文献组数据进行了统一清洗和分析,提供了灵活的数据API接口和便捷的数据挖掘工具,极大的提升了公共组学大数据的复用性,为大数据驱动的动物智能育种奠定了基础。
随着高通量测序技术的快速发展,多维度的生物组学数据呈现超指数型增长,整合利用多维组学数据为解读基因调控机理,推进生物系统的全面解析带来了前所未有机遇。然而,挑战与机遇并存,组学大数据的到来也为基因功能研究带来了巨大挑战。首先,组学数据种类繁多,数据来源复杂,数据描述标准不一,数据清洗难度大。其次,组学数据量巨大,对数据分析、存储以及检索效率的要求较高。同时,如何将多维组学数据进行高效整合分析也面临极大挑战。
IAnimal知识库框架示意图
为解决上述问题,团队基于众包理念开发了数据在线清洗工具,多个用户可以同时在线对数据进行清洗,工具将自动利用这些信息相互纠错。同时基于工程化思想,实现了数据自动下载、分析以及结构化,并针对标准统一的数据设计了灵活的数据调用接口。最后,利用上述数据接口,基于前后端分离技术提供了25个数据查询、挖掘以及可视化的功能模块,用户能够利用这些模块实现多维组学数据查询、整合分析以及跨物种比较。
IAnimal调用案例。A、通过文献组学数据可视化结果直观判断IGF2基因和肌肉生长相关;B、通过数据可视化结果判断KIT、MITF等基因和毛色相关;C、与IGF2高度相关的基因构成的调控网络;D、CAPZA1、FN3K、SF3A3和NUP88基因在猪和牛之间的调控模式比较;E、亚洲北方家猪和野猪在指定位点的基因型分布。
IAnimal致力于利用跨物种多组学大数据帮助用户挖掘基因功能,在充分利用海量公共数据的同时减少大量重复计算带来的能源消耗。其核心在于灵活的数据API接口,用户对海量组学数据的应用不仅仅局限于知识库提供的在线工具,更可以根据实际需求调用感兴趣的数据进行下游挖掘和分析。例如,利用文献组相关接口,用户能够快速分析指定基因潜在生物学功能以及指定性状的潜在调控基因;利用相关系数接口,用户可以快速获取指定基因紧密相关的基因并连接成网络。同时,结合同源基因相关接口,即可方便的比较基因在不用物种中的调控模式差异;利用基因分型接口,用户仅需要根据实验目的选择合适群体,即可获取指定位点在这些群体中的基因型矩阵用于进行下游分析。
未来,IAnimal将持续从更多的维度提供更全面的多维组学信息,基于深度学习技术开发智能整合算法以及相应的数据挖掘和可视化工具。以丰富的组学大数据为驱动,产出知识来填补基因组和表型组之间的空白。
best365博士后付玉华为论文第一作者。赵书红教授、刘小磊教授为论文共同通讯作者。该研究工作得到了国家重点研发计划、国家自然科学基金以及博士后科学基金等项目的资助。
IAnimal知识库:https://ianimal.pro
IAnimal使用示例:https://ianimal.pro/reception/help
原文链接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkac936/6775392#