模式识别发论文 论文-生物信息学中模式识别技术应用与发展.pdf
医学信息学杂志期.Vo1.34.No.11(富阳市技工学校富阳)浙江工业大学信息工程学院杭州)摘要]评述生物信息学研究中常见的模式识别技术,主要包括人工神经网络(ANN)、聚类分析法CA)、主元分析法(PCA)尔可夫模型(HMM)等,并分析生物信息科学研究中模式识别技术的发展与要求。关键词]生物信息学;人工神经网络;主元分析法;隐马尔可夫模型;聚类分析—chool,,China;,,,,-(ANN),),(PCA),n,.];ork;;;引言随着信息技术与生命科学的迅速发展,一门新兴的交叉学科——生物信息随之发展起来。
生物信息学是用信息科学的观点织和分析呈指数增长的生物数据目前的研究范围与应用情况看白质序列的获取、加工、存储索及分析,揭示生物数据所蕴含的生物学意义。面对海量,人们迫切需要发展各种信息处理方法,实现对这些生物数据息挖掘、功能分类及个体识别收稿日期2013—04—15昌,副高职称,发表论文12浙江省重中之重学科信息处理与自动化技术开放基金项“基于几何代数理论的小样本仿生模式识别理论研究”目编号:白质序列特、基因识别、基因表达数据分析与功能分类中都得到广泛的应用。本文对生物信息学中常见的模式识别技术基本原理与应用现状做详细综述,主要包括人工神经网络(ork,ANN)Suppo~,SVM),,—,HMM),最后笔者对应用于生物信息科学的模式识别技术发展提出一些观点。工神经网络与支撑向量机2.1工神经网络人工神经网络技术是用大量简单处理单元广泛连接而成的人工网络,是对生物神经网络基本特征的模拟和抽象。
人工神经网络由许多简单神经元按定拓扑结构组合而成,网络的整体行为很复杂是一个高度非线性动力系统,在处理高度非线性医学信息学杂志期.Vo1.34.No.11复杂性、不确定性的问题上具有独到的优势。近几年来,人们将人工神经网络技术应用于生物信息数据处理主要包括DNA序列分类白质结构预测、基因表达谱数据分析等采用统计的方法对20个已知类别DNA序列进行特征提取,利用神经网络自适应DNA序列进行分,GRAIL)。GRAIL应用BP经网络技术组合编码度量,其网络结构是13,见图1,输出层的值表征一段序列成为外显子的可能性。神经网络技术在蛋白质结构预测研究问上有很广泛螺旋、折叠、y结构螺旋也非JB折叠结构),研究人员根据已知蛋白质序列与构形态之间的关系,来预测未知结构的蛋白质序列结构,在此基础上对蛋白质级结构局部形态进行分类。Bohr应用BP神经网络对蛋白质GRAIL中识别外显子的神经网络拓扑结构随着互补脱氧核糖核酸核苷酸芯片等高通量检测技术的发展因表达谱数据分析法已被大量用于研究肿瘤细胞生理状态基因组合及其共同特性、相互作用和协同调控等方分析法选取特征基结合神经网络技术对儿童小圆蓝细胞瘤类不同子型进行分类识别,取得很好的分型结果。
将淋巴瘤基因表达谱数据结合神经网络分析方,针对淋巴瘤诊断具有很好的判别作用。国内王采用人工神经网络集成的方法对微阵列数据进行分类,实验表明基于集成的神经网络微阵列数据分类模型优于一般单个神经网络模型。入空间变换到一个较高维的特征空间,然后在这个新空间中求取最优线性分界面,从而实现未知样本的分类与识别目的,这种非线性变换通过定义合适的内积函数实现。SVM在解决小样本、非线性维学习问题方面有很大优势,在生物体基因表达谱数据研究中得到广泛的应用。Furey采用SVM分类技术结合基因表达谱数据实现肿瘤分型。SVM还与其他方法相结合对肿瘤基因表达谱数据进行分类研究,如CHU等SVM与主元分析法(PCA)相结合,应用PCA选择特征基类亚型进行分类实验,分类结果正确率达到100%。聚类分析近年来,支撑向量机SVM)作为一种核心方法在模式识别方面有很广泛的应用,它是一种监督学习方法,其根本思想是首先通过非线性变换将输聚类算法建立在多元统计基础之上,是模式识别、数据挖掘的重要方法,特别适用于模式分类类别医学信息学杂志~.Vo1.34.No.11数不确定的情况。
它应用基因表达谱数据分析的主要目标是将微阵列实验中所表现出相似表达模式的基因聚集到一个簇中。常见的聚类方法有分层聚类、K均值聚类、自组织映射神经网络聚类等。分层聚类的优点是比较好理解、容易实现,分类结构一般以树状图显示。美国斯坦福大学的对分层聚类方法开发平台免费芯片数据分析软件,该软件可以将计算结果可视化,并应用于微阵列数据分析中。但是分层聚类在基因表达谱的应用中有效f生较低,而且聚类结果会受到向量顺序的影响,无法更正在聚类过程中形成的任何不恰当的合并。K一均值聚类是对给定的个数个类别中去,使得类内对象之间的相似度最大,类之间的相似最小。 220个酵母 ORF 的芯片数据分析 ,将其 ,每个类49 ~186 ORF不等,其 中极大多数是有意义的。自组织映射神经网络聚类方 于神经网络的分裂聚类方法 ,有效 改进了 一均值聚类法的一些缺点。另外,聚类技术 还应用于药物化学成分分类和抗癌药物活性检测。 严格来讲主元分析法不是一种分类方法,它是 数据降维 的方法 多元事物 出事物主要 、计算量大的特点,应用主元分析法分析基 表达数据时,以各基因作为变量 ,将高维数据投影 到较低维空间 ,找到一组 “主要基因元素”用 PCA对基因表达谱数据进行聚类分析 ,取得满意 的效果 。
国内张瑞杰等人 PCA应用于组织样 因表达谱数据分析,并结合分层聚类等方法 对组织样本实现分类 ,实验结果表明 :主元分析法 的引入有助于提高分类效果 隐马尔可夫模型HMM 建立在统计 基础上 ,是一个双随机过程 其中一个就是隐马尔可夫随机过程,起初主要应用于语音识别研究 。1989 引入到计算生物学中,目前隐马尔可夫模型已经是一 比较成熟的数学模型,广泛应用于生物序列分析。基因识别的隐马尔可夫模型方法主要分为两类 :一类 按照内容搜索 ,另一类按照信号搜索。按内容搜索的 方法已经有很 成功的软件 ,, 等;按信号搜索方法 的成功软件有 Genie, Veil 表示的是DNA 序列的隐马尔可夫模型: 图中没标出起始 、终止两状态 ;方框表示各个状态 它们之间的连线表示状态转移;图中框内的黑色方柱 表示该位点出现核苷酸概率。 DNA序列 隐马尔可夫模型 此外 ,清华大学朱红梅等 设计延时隐马尔可 夫模型应用于水稻基 因剪接供体位点识别研究 验结果表明:在一定程度上延时隐马尔可夫模型的判别能力优于标准 隐马尔可夫模型。 ,该模型还可以确定剪切位点,人们还发现隐马 医学信息学杂志2013