专业文章

为什么骨龄评价要进行“质量控制”?如何去做?


时间: 2017/2/4 16:49:53 浏览量:5249 字号选择: 分享到:

摘要


本文是介绍新骨龄标准-《中国人手腕骨发育标准-中华05》系列文章的第12篇。和任何科学实验方法一样,骨龄评价方法也存在有系统误差和随机误差。检验骨龄评价的可靠性,不仅对评价的方法学有深入的了解,更重要的是能够对骨龄评价结果做出正确的估价,增强不同评价者之间评价结果的一致性,提高实践应用的工作质量。


关键词:骨龄,骨龄评价,骨龄读片质量,骨龄评价质量控制,中国人手腕骨发育标准-中华05,RUS-CHN

录入日期: 2010/2/13 


和任何科学实验方法一样,骨龄评价方法也存在有系统误差和随机误差。检验骨龄评价的可靠性,不仅对评价的方法学有深入的了解,更重要的是能够对骨龄评价结果做出正确的估价,增强不同评价者之间评价结果的一致性,提高实践应用的工作质量。


一、国际间应用G-P图谱和TW法骨龄评价一致性的检验研究


骨龄评价方法的可靠性主要表现在两个的方面,一是评价者本人的读片重复性,称为评价者内的重复性;二是多名评价者之间的读片重复性,称为评价者间的重复性。


G-P图谱法和TW计分法是国际上应用非常广泛的骨龄评价方法。二十世纪六十年代,巴黎国际儿童中心在组织协调欧洲8个国家的儿童生长研究时,曾经对G-P法和TW1方法进行了系统的比较研究(Acheson et al., 1963, 1964, 1966)。来自不同国家的6名评价者,使用G-P图谱和TW1方法评价50名2~18岁儿童的手腕X线片,结果发现G-P方法的系统误差较小,TW1方法的随机误差较小;但如果排除了腕骨,则TW1方法的系统误差明显下降,与G-P方法的差异显著性消失。比较研究的结果引起了Tanner et al.的注意,在1975年对TW1方法进行了修改而提出TW2法。在TW2 法中取消了评价困难的发育等级(桡骨、尺骨和头状骨、三角骨、月骨、舟骨、大多角骨和小多角骨的最后一个发育等级),以提高读片可靠性。


TW2方法的原作者(Tanner et al., 1994),以及长期从事儿童生长发育研究的工作者(Beunen et al., 1980; Tarabger et al., 1976; Wenzwl and Melsen, 1982)以TW2-RUS方法重复读片,等级相同的例数在81%~94%左右,骨龄读数的95%置信区间为±0.5到±0.6岁;使用TW2–Carpal方法,评价者内等级相同的例数在80.6%~92.3%,骨龄读数的95%置信区间为±0.48岁至±0.72岁。评价者间的读片重复性较低,TW2-RUS和TW2-Carpal方法的评价者间的重复性分别在74.4%~80.5% 和74.1%~88.0%。但是,评价者间的重复性在不同个体间也有很大的差异,比利时的Beunen G.(1980)通过自学掌握TW2方法后,与TW2方法原作者Whitehouse R.H., Cameron N.进行了比较研究,以TW-20方法重复阅读112张X线片,评价者之间骨发育等级相同的例数在83%以上。但在Baughan et al.(1979)和Medicus et al.(1971)的研究中,2名或3名评价者间重复读片的一致性则较低,TW-RUS骨在76%~82%,腕骨在72%~74%之间。


二、《中国人手腕骨发育标准-中华05》 RUS-CHN法和TW3-C Carpal法的读片可靠性检验:


在国内,《中国人手腕骨发育标准-中华05》课题组首次对骨龄评价方法可靠性进行了较为全面的研究(张绍岩等,2006)。他们根据从事骨龄评价工作年限、是否参加过读片培训、以及每年阅读X线片的数量将11名评价者分为三类:


有经验者:从事骨龄评价工作在5年以上,曾经参加原《中国人骨发育标准-CHN法》培训1次以上,平均每年读片数量在1000例以上者。


较有经验者:从事骨龄评价工作在3年以上,曾经参加CHN法培训或有自学经历,平均每年读片数量在1000例以下者;


无经验者:无骨龄评价经历者;或使用G-P方法读片者;或虽然参加过原《中国人骨发育标准-CHN法》培训或自学,但日常读片数量较少者。


所有评价者集中培训3天,然后在不知儿童年龄、性别的情况下,11名评价者使用RUS-CHN法以随机顺序独自阅读75名正常儿童的左手腕部X线片,其中6名评价者同时评价TW3-C Carpal法的骨发育等级。20天后,所有评价者使用相同的评价方法,在一天时间内独自重复阅读同一组儿童的手腕部X线片。检验结果如下:


1、评价者内的可靠性:


(1)RUS-CHN法:


各评价者使用RUS-CHN法重复读片,等级相同例数的百分数平均在63.4%~82.2%之间。重复读片不一致的等级主要出现在相邻等级上,相差2个等级的例数很少,相差2个等级例数的百分数的平均数在1.3%~2.9%。根据重复率可将评价者分为三类:


有经验者、较有经验者和部分无经验者,等级相同的重复率相似,在78.0%~82.2%;


1名无经验者,等级相同的例数为74%;


2名无经验者等级相同的例数在63.4%~67.6%。


所有评价者骨龄读数的95%置信区间在±0.40岁~±0.76岁,除了几名无经验者外,大部分评价者本人重复读片的随机误差在±0.6岁以下的适当范围之内。


(2)TW3-C Carpal法:


6名评价者参加了TW3-C Carpal法的可靠性检验。也可将评价者分为三类:


有经验者的重复性较高,82.1%~83.2%;


较有经验者和部分无经验者的读片重复性在72.1%~74.4%;


2名无经验者等级相同的例数在65.6%~70.1%。


所有评价者骨龄读数的95%置信区间为±0.32~±0.71岁,有5名评价者的随机误差在±0.60岁以下,2名无经验者在±0.60岁以上,分别为±0.68和±0.72,分别有评价偏低和偏高的系统误差。


2、评价者间的可靠性:


(1)RUS-CHN法:


各评价者与制订中华05标准的读片员相比,骨发育等级相同的例数平均在61.3%~77.3%。由此可见评价者间的等级重复性均低于评价者内的重复性。评价者间的重复性分为3类:


有经验者、较有经验者和1名无经验者,其评价者间的重复性在73%~77%;


部分无经验者评价者间的重复性在69%~70%;


部分无经验者评价者间的重复性在65%左右(61%~66%)。


在各评价者骨龄读数的95%置信区间为±0.42~±0.96岁。评价者间等级重复性在75%左右的5名评价者的随机误差在±0.60岁以下(±0.41~±0.58岁);评价者间等级重复性在61%~70%的评价者(无经验者)的随机误差大于±0.60岁(±0.64~±0.96岁)。


(2)TW3-C Carpal法:


各评价者与制订中华05标准的读片员相比,评价者间腕骨等级的重复率在77.4%~88.0%,普遍高于RUS-CHN方法:


有经验者和1名较有经验者,评价者间等级相同例数的平均数在86%~88%;


部分无经验者。等级相同例数平均在82%~84%;


一名无经验者,等级相同例数的平均数在77%。


有经验者、较有经验者以及1名无经验者骨龄读数的95%置信区间在±0.60岁以下,1名无经验者在±0.60岁以上。


通过上述的检验说明,RUS-CHN法与TW3-C Carpal法的可靠性与TW3-RUS法基本相同。在有不同经验的评价者之间,骨龄评价的可靠性有显著性差异;有经验者读片可靠性水平较高,少数无经验者通过一次学习培训可以达到较有经验者的类似水平,但大部分无经验者可靠性水平较低。这些研究不经说明读片练习与经验是取得可靠骨龄结果的基础,而且也说明了通过可靠性检验,实行读片质量控制的重要性。


三、骨龄读片质量控制方法


(一)、评价者内的读片可靠性检验:


(1)计算重复率:应用者应选择、阅读一定数量的手腕骨部X线片(最好在50张以上),年龄范围应包括所欲应用年龄段。相隔一段时间后(应至少15天以上),重复读片,比较两次读片结果,统计相同等级例数的百分数,判断重复性。如果分别统计每块骨的重复率,还可以分析出那一块骨,或哪些发育等级的重复性较差,使用图谱法时,通过检验可发现重复读片差异较大的年龄范围,然后重点学习、练习,以提高重复性。


(2)计算骨龄读数95%的置信区间:该统计量说明了所评价骨龄的随机误差范围,计算公式为:  ±t0.05√(∑d2/2n),其中∑d2为两次读片骨龄差值的平方和,n为X线片的数量,t0.05为t检验中0.05水平上的t值。


(3)系统误差:分别计算两次读片骨龄的平均数和标准差,比较平均数的差异,观察系统误差的大小,并同时进行两相关样本的差异显著性检验。


(二)、评价者间的读片可靠性检验:


在不同评价者之间重复阅读一定数量的手腕部X线片,使用上述相同的统计方法计算,即可得出评价者间的随机误差和系统误差。评价者之间的读片可靠性检验也同样重要,但在施行起来,其难度大于评价者内的可靠性检验,最好是在应用领域内,定期组织、交流经验,讨论、统一评价尺度,是提高读片质量,保证临床和科研工作可比性的重要措施。



参考文献


张绍岩, 吴真列, 沈勋章, 等. 中国人手腕骨发育标准-中华05 II. RUS-CHN 和TW3-C腕骨方法的读片可靠性.中国运动医学杂志, 2006, 25(6): 641-646.


Acheson RM, Vicinus JH and Fowler GB. Studies in the reliability of assessing skeletal maturity from   X-ray. Part II. The Bone-Specific Approach. Hum Biol, 1964, 36:211-228.


Acheson RM, Vicinus JH and Fowler GB. Studies in the reliability of assessing skeletal maturity from X-ray.


Part III. Greulich-Pyle atlas and Tanner-Whitehouse method contrasted. Hum Biol, 1966, 38:205-218.


Acheson RM, Fowler GB, Fry EI, et al. Studies in the reliability of assessing skeletal maturity from X-ray. I. Greulich-Pyle atlas. Hum Biol, 1963, 35:317-349.


Baughan B, Demirjian A, and Levesque GY. Skeletal maturity standards for French-Canadian children of school-age with a discussion of the reliability and validity of such measures. Hum Biol, 1979, 51(3): 353-370.


Beunen G. and Cameron N. The reproducibility of TW2 skeletal age assessments by a self-taught assessor.Ann Hum Biol, 1980,7(2): 155-162.


Beunen G. and Cameron N. The reproducibility of TW2 skeletal age assessments by a self-taught assessor.Ann Hum Biol, 1980,7(2): 155-162.


Medicus H, Gron AM andMoorees CFA. Reproducilibity of rating stages of osseous development. Am J Phys  Anthropol, 1971, 35:359-372.


Wenzel A. and Melsen B. Replicability of assessing radiographs by the Tanner and Whitehouse-2 method. Hum Biol, 1982, 54(3):575-581.


Taranger J, Burning B, Claesson I, et al. Skeletal development from birth to 7 years. Acta Paediatr Scand, 1976,258 (Suppl.):98-108.


Tanner, JM and Gibbons RD. A computerized image analysis system for estimating Tanner-Whitehouse 2 bone  age. Horm Res, 1994, 42:282-287.

进入列表