前 言
通用结构数据库包括PubChem(1.16亿化合物)、ChemSpider(1.28亿化合物)、ZINC(7.5亿化合物)和生物学兴趣化学实体(ChEBI;超过46,477种化合物),这些都是可自由获取的化学化合物数据库。
PubChem(https://pubchem.ncbi.nlm.nih.gov/) 是一个全球性的分子聚合器,拥有惊人的1.16亿种化合物结构。
ChemSpider (https://www.chemspider.com/)
则作为化学聚合器提供有关化合物名称、自然属性、二维和三维结构等基本信息。这两个数据库通常被用于成分识别。
ChEBI (https://www.ebi.ac.uk/chebi/aboutChebiForward.do)是一个基于网络的数据库,存储自然和合成生化化合物以及其他形式的化合物。
ZINC (https://zinc.docking.org/)整合了包括ChEMBL、DrugBank等在内的其他数据库,使其能够连接具有生物靶标、代谢途径和生物活性小分子的化合物,从而不仅仅是一个以化合物为中心的数据库。
默克索引(Merck Index,https://merckindex.rsc.org/)在线(1610种化合物)和化学结构查找服务(CSLS;7,400万分子)包含了大量化学品。默克索引是生命科学的百科全书,可以作为半合成化合物搜索的数据库。CSLS专门设计用于化学结构搜索,有助于快速检查结构是否出现在100多个化学数据库中。
COlleCtion of Open Natural prodUcTs(COCONUT,https://coconut.naturalproducts.net/)数据库基于53个在线化学资源构建,最终拥有超过400,000条天然产品记录,具有高分子多样性和结构复杂性。它已成为目前最大的自然资源化学成分免费可访问数据库。
MetaboLights(包含27,883种化合物, https://www.ebi.ac.uk/metabolights/)和The BiGG Models知识库(BiGG; 包含9,088种代谢物,http://bigg.ucsd.edu/models)是开放获取的有机体代谢物数据库。这两个数据库访问网速较慢,需要耐心等待。
NaprAlert(约200,000种化合物,https://pharmacognosy.pharmacy.uic.edu/napralert/)收集了来自参考文献的手工策划的天然产品信息,并附有元数据,但它对研究者的访问权限有限。
TCM database@Taiwan (China)自2011年首次发布以来,该数据库在中医社区中得到了广泛传播和使用。它致力于收集大量的中医数据,包括来自草药、动物产品和矿物的成分,具有虚拟筛选和分子对接模拟的功能(http://tcm.cmu.edu.tw/)。
SWEETLEAD (4442结构,https://simtk.org/projects/sweetlead):具有类似功能,还显示了关于已知化合物(如全球批准的药物、非法药物和传统草药分离物)的精确化学结构的详细且高度整理的数据。
Phytochemdb (8093植化学成分,[http://iyfbodn.com/) 和 Medherb(https://medherb.com/):特点是手工收集植物成分。后者还提供有关基因、蛋白质、植物种类和药用重要草药的现有文献的信息。
Seaweed Metabolite Database (SWMD; 2110化合物,https://swmd.co.in/):提供关于海藻衍生化合物的信息。
地理分布特征数据库:如亚洲的 TM-MC (34,108化合物,https://tm-mc.kr/),旨在整理列在中国、韩国和日本药典中的东北亚传统药物。
非洲的 African Natural Products Database (ANPDB; 6515化合物,https://african-compounds.org/anpdb/),合并了北非自然产品数据库和东非自然产品数据库,包含来自非洲各地区本地植物、微生物、动物到海洋源的自然成分。
GlyTouCan(https://glytoucan.org/):这是一个国际糖库,主要包括多糖的结构、序列和成分信息。此数据库作为一个广泛的糖类信息库,为研究多糖提供了基础数据支持。
Complex Carbohydrates Magnetic Resonance Database (https://glycodata.org/ccmrd/):这是第一个固态NMR数据库,专为揭示不溶性碳水化合物的复杂结构而设计。
UniCarb-DB (1118 个结构, 1588 个谱图,https://unicarb-db.expasy.org/):包括糖片段的MS谱数据,为多糖的质谱分析提供详细的参考。
Lipid Metabolites and Pathways Strategy (LIPID MAPS; 48,352脂质结构,https://lipidmaps.org/about/information):这是一个全面的脂质数据库,包括化学结构和生物注释。它提供了一种命名和分类脂质的方法,已成为广泛接受的标准。此外,LIPID MAPS还提供大量的软件工具和教育资源,以及用于编目和识别不同级别脂质的数据库。Shi等人建立了一种整合的脂质组学分析策略,该策略结合了自动化MS数据库搜索(LIPID MAPS和HMDB)和两个质谱平台(UHPSFC/QTOF-MS和UHPSFC/IMS-QTOF-MS),实现了三种同属人参物种天然脂质的高通量分析。
LipidIMMS Analyzer(http://lipid4danalyzer.zhulab.cn/):LipidIMMS Analyzer是一个专门从事自动数据处理和脂质识别的开源网站,具备处理基于质谱和多维信息的多种数据类型的能力,包括精确质量数、保留时间、碰撞横截面积和二级质谱。2021年,该数据库升级为Lipid4DAnalyzer,支持来自IM-MS和非IM-MS仪器的脂质组学分析。
Overview and limitations of database in global traditional medicines: A narrative review