|
基于人工神经网络的肺癌诊断研究 |
|
xm,ym),其中yi=f(xi)。这里描述的是一般的数学抽象,像识别与分类这些计算都可以抽象为这样的一种近似数学映射。 所谓诊断,实质上是一个分类问题。即根据候诊者的症状,医学检查结果(如体温、心跳等)等一些情况,它们可以用一向量(e1,e2,…,em)来表示,将其归类为病人或非病人。这也可以转化为寻找一差别函数f使得: (1)f(e1,e2,…,em)>ε, (e1,e2,…,em)∈T (2)f(e1,e2,…,em)>ε, (e1,e2,…,em)T 其中集合T表示患病。 因此,病情诊断最终也可作为一类函数的逼近问题。 而许多研究已表明,前向神经网络可作为非线性逼近的标准型。对于实数空间的任一函数,只要它满足一定的条件,一定存在唯一的具有单一隐层的前向网络作为它的最优最佳逼近。而含有两个隐含层的前向网络可在任意的平方误差内逼近某一实函数〔3〕。
诊断步骤
肺癌病例数据选自1981~1994年在某医院住院的病人,共计551例。其中486例(88%)经病理学、细胞学诊断证实为肺癌。每一病例都包括多项数据,其中用于诊断的数据项有:病人的一般情况(如年龄、性别等),家族史、既往史、吸烟史、术后病理、X射线检查、CT检查、纤维支气管镜检查、PAT痰检等多达58项。因此,原则上 58项数据应作为神经网络的输入项,而神经网络的输出值就是病人是否患肺癌的结果。 1.网络训练集的确定:在最原始的551例病人数据中存在着各种各样的差别,如性别差异(419例男性,132例女性),诊断结果的差异(486例经证实为肺癌),所患肺癌种类的差异(鳞癌、小细胞癌、大细胞癌等),患病程度上的差异(早、中晚期的不同)等等。显然,训练数据集应最大限度地保证兼顾各种病例情况。经过仔细筛选,选择了含有460个病例的集合作为肺癌诊断用的网络的训练集。 2.神经网络输入和输出数据的预处理 按照人工神经网络的理论,神经网络的输入输出数据都应该属于(0,1)区间的实数,为此我们需对原始数据进行如下的规一化处理:
其中xi为原始数据项,而Max=max{xi∶xi∈X},Min=min{xi∶xi∈X}。这里X为原始数据集。经过(7)式变换后,yi将在(0,1)区间。因此,可作为神经网络的输入输出。 3.应用神经网络进行肺癌诊断 将描述病人各种情况的数据作为前向网络的输入数据加到其输入端,并按(1)~(6)式计算各神经元的输入和输出,同时调整神经元之间的连接权值以使网络的输出和实际的病例情况相符。即当病人确实患肺癌时网络的输出结果也恰好指示为肺癌,反之亦然。如果对所有的训练样本集网络的输出基本上(95%或更高)能保证与实际结果一致,则训练过程结束。我们认为神经网络已建立起病人的各种因素与他是否是肺癌患者之间的函数映射关系。对于一个新的候诊病人来说,只要将他的情况输入到训练好的神经网络中去,根据网络的输出结果就可以知道他是否已患肺癌。
表1 基于不同发病因素的诊断网络模型 类 型 训练集精度 测试集精度 基于遗传因素的诊断网 53.8% 46.3% 基于个人生活习惯的诊断网 57.1% 44.9% 基于病症的诊断网 89.4% 83.3% 基于医学检查结果的诊断网 98.5% 92.6% 上述结果表明不同类型的因素应分开来考虑。于是我们将58项输入数据分成四类,这四类有各自的BP诊断网,依次称为诊断一、诊
断二、诊断三、诊断四。它们先单独测定,然后再将它们各自的结果综合起来得出最后的判断。 上述四种诊断网络所得结果的可靠性各不相同。其中,根据医学检查结果所作的诊断准确性最高,因此在最后的综合分析中要重点考虑它的诊断结果,我们给它设一个相对最高的权值。其次,根据病人的症状所作的诊断往往也具有较高的准确性,因此给它的权值也较高,但比医学检查结果的稍低。其他两类因素在有关肺癌的诊断中仅具参考作用,因而所设的权值相对较小。 最后的结果O为: O=a1.O1+a2.O2+a3.O3+a4.O4 上一页 [1] [2] [3] 下一页 上一个医学论文: 多元非线性人体循环呼吸系统模型及其应用 下一个医学论文: 流行性感冒的预防与治疗
|
|
|
|
|
|
|