骨龄鉴定_骨龄测评_人工智能骨龄软件

为什么骨龄评价要进行“质量控制”？如何去做？

时间： 2017/2/4 16:49:53 浏览量：6417 字号选择：

分享到:

摘要

本文是介绍新骨龄标准-《中国人手腕骨发育标准-中华05》系列文章的第12篇。和任何科学实验方法一样，骨龄评价方法也存在有系统误差和随机误差。检验骨龄评价的可靠性，不仅对评价的方法学有深入的了解，更重要的是能够对骨龄评价结果做出正确的估价，增强不同评价者之间评价结果的一致性，提高实践应用的工作质量。

关键词：骨龄,骨龄评价,骨龄读片质量,骨龄评价质量控制,中国人手腕骨发育标准-中华05,RUS-CHN

录入日期： 2010/2/13

和任何科学实验方法一样，骨龄评价方法也存在有系统误差和随机误差。检验骨龄评价的可靠性，不仅对评价的方法学有深入的了解，更重要的是能够对骨龄评价结果做出正确的估价，增强不同评价者之间评价结果的一致性，提高实践应用的工作质量。

一、国际间应用G-P图谱和TW法骨龄评价一致性的检验研究

骨龄评价方法的可靠性主要表现在两个的方面，一是评价者本人的读片重复性，称为评价者内的重复性；二是多名评价者之间的读片重复性，称为评价者间的重复性。

G-P图谱法和TW计分法是国际上应用非常广泛的骨龄评价方法。二十世纪六十年代，巴黎国际儿童中心在组织协调欧洲8个国家的儿童生长研究时，曾经对G-P法和TW1方法进行了系统的比较研究（Acheson et al., 1963, 1964, 1966）。来自不同国家的6名评价者，使用G-P图谱和TW1方法评价50名2~18岁儿童的手腕X线片，结果发现G-P方法的系统误差较小，TW1方法的随机误差较小；但如果排除了腕骨，则TW1方法的系统误差明显下降，与G-P方法的差异显著性消失。比较研究的结果引起了Tanner et al.的注意，在1975年对TW1方法进行了修改而提出TW2法。在TW2 法中取消了评价困难的发育等级（桡骨、尺骨和头状骨、三角骨、月骨、舟骨、大多角骨和小多角骨的最后一个发育等级），以提高读片可靠性。

TW2方法的原作者（Tanner et al., 1994），以及长期从事儿童生长发育研究的工作者（Beunen et al., 1980; Tarabger et al., 1976; Wenzwl and Melsen, 1982）以TW2-RUS方法重复读片，等级相同的例数在81%~94%左右，骨龄读数的95%置信区间为±0.5到±0.6岁；使用TW2–Carpal方法，评价者内等级相同的例数在80.6%~92.3%，骨龄读数的95%置信区间为±0.48岁至±0.72岁。评价者间的读片重复性较低，TW2-RUS和TW2-Carpal方法的评价者间的重复性分别在74.4%~80.5% 和74.1%~88.0%。但是，评价者间的重复性在不同个体间也有很大的差异，比利时的Beunen G.（1980）通过自学掌握TW2方法后，与TW2方法原作者Whitehouse R.H., Cameron N.进行了比较研究，以TW-20方法重复阅读112张X线片，评价者之间骨发育等级相同的例数在83%以上。但在Baughan et al.（1979）和Medicus et al.（1971）的研究中，2名或3名评价者间重复读片的一致性则较低，TW-RUS骨在76%~82%，腕骨在72%~74%之间。

二、《中国人手腕骨发育标准-中华05》 RUS-CHN法和TW3-C Carpal法的读片可靠性检验：

在国内，《中国人手腕骨发育标准-中华05》课题组首次对骨龄评价方法可靠性进行了较为全面的研究（张绍岩等，2006）。他们根据从事骨龄评价工作年限、是否参加过读片培训、以及每年阅读X线片的数量将11名评价者分为三类：

有经验者：从事骨龄评价工作在5年以上，曾经参加原《中国人骨发育标准-CHN法》培训1次以上，平均每年读片数量在1000例以上者。

较有经验者：从事骨龄评价工作在3年以上，曾经参加CHN法培训或有自学经历，平均每年读片数量在1000例以下者；

无经验者：无骨龄评价经历者；或使用G-P方法读片者；或虽然参加过原《中国人骨发育标准-CHN法》培训或自学，但日常读片数量较少者。

所有评价者集中培训3天，然后在不知儿童年龄、性别的情况下，11名评价者使用RUS-CHN法以随机顺序独自阅读75名正常儿童的左手腕部X线片，其中6名评价者同时评价TW3-C Carpal法的骨发育等级。20天后，所有评价者使用相同的评价方法，在一天时间内独自重复阅读同一组儿童的手腕部X线片。检验结果如下：

1、评价者内的可靠性：

（1）RUS-CHN法：

各评价者使用RUS-CHN法重复读片，等级相同例数的百分数平均在63.4%~82.2%之间。重复读片不一致的等级主要出现在相邻等级上，相差2个等级的例数很少，相差2个等级例数的百分数的平均数在1.3%~2.9%。根据重复率可将评价者分为三类：

有经验者、较有经验者和部分无经验者，等级相同的重复率相似，在78.0%~82.2%；

1名无经验者，等级相同的例数为74%；

2名无经验者等级相同的例数在63.4%~67.6%。

所有评价者骨龄读数的95%置信区间在±0.40岁~±0.76岁，除了几名无经验者外，大部分评价者本人重复读片的随机误差在±0.6岁以下的适当范围之内。

（2）TW3-C Carpal法：

6名评价者参加了TW3-C Carpal法的可靠性检验。也可将评价者分为三类：

有经验者的重复性较高，82.1%~83.2%；

较有经验者和部分无经验者的读片重复性在72.1%~74.4%；

2名无经验者等级相同的例数在65.6%~70.1%。

所有评价者骨龄读数的95%置信区间为±0.32~±0.71岁，有5名评价者的随机误差在±0.60岁以下，2名无经验者在±0.60岁以上，分别为±0.68和±0.72，分别有评价偏低和偏高的系统误差。

2、评价者间的可靠性：

（1）RUS-CHN法：

各评价者与制订中华05标准的读片员相比，骨发育等级相同的例数平均在61.3%~77.3%。由此可见评价者间的等级重复性均低于评价者内的重复性。评价者间的重复性分为3类：

有经验者、较有经验者和1名无经验者，其评价者间的重复性在73%~77%；

部分无经验者评价者间的重复性在69%~70%；

部分无经验者评价者间的重复性在65%左右（61%~66%）。

在各评价者骨龄读数的95%置信区间为±0.42~±0.96岁。评价者间等级重复性在75%左右的5名评价者的随机误差在±0.60岁以下（±0.41~±0.58岁）；评价者间等级重复性在61%~70%的评价者（无经验者）的随机误差大于±0.60岁（±0.64~±0.96岁）。

（2）TW3-C Carpal法：

各评价者与制订中华05标准的读片员相比，评价者间腕骨等级的重复率在77.4%~88.0%，普遍高于RUS-CHN方法：

有经验者和1名较有经验者，评价者间等级相同例数的平均数在86%~88%；

部分无经验者。等级相同例数平均在82%~84%；

一名无经验者，等级相同例数的平均数在77%。

有经验者、较有经验者以及1名无经验者骨龄读数的95%置信区间在±0.60岁以下，1名无经验者在±0.60岁以上。

通过上述的检验说明，RUS-CHN法与TW3-C Carpal法的可靠性与TW3-RUS法基本相同。在有不同经验的评价者之间，骨龄评价的可靠性有显著性差异；有经验者读片可靠性水平较高，少数无经验者通过一次学习培训可以达到较有经验者的类似水平，但大部分无经验者可靠性水平较低。这些研究不经说明读片练习与经验是取得可靠骨龄结果的基础，而且也说明了通过可靠性检验，实行读片质量控制的重要性。

三、骨龄读片质量控制方法

（一）、评价者内的读片可靠性检验：

（1）计算重复率：应用者应选择、阅读一定数量的手腕骨部X线片（最好在50张以上），年龄范围应包括所欲应用年龄段。相隔一段时间后（应至少15天以上），重复读片，比较两次读片结果，统计相同等级例数的百分数，判断重复性。如果分别统计每块骨的重复率，还可以分析出那一块骨，或哪些发育等级的重复性较差，使用图谱法时，通过检验可发现重复读片差异较大的年龄范围，然后重点学习、练习，以提高重复性。

（2）计算骨龄读数95%的置信区间：该统计量说明了所评价骨龄的随机误差范围，计算公式为： ±t0.05√(∑d2/2n)，其中∑d2为两次读片骨龄差值的平方和，n为X线片的数量，t0.05为t检验中0.05水平上的t值。

（3）系统误差：分别计算两次读片骨龄的平均数和标准差，比较平均数的差异，观察系统误差的大小，并同时进行两相关样本的差异显著性检验。

（二）、评价者间的读片可靠性检验：

在不同评价者之间重复阅读一定数量的手腕部X线片，使用上述相同的统计方法计算，即可得出评价者间的随机误差和系统误差。评价者之间的读片可靠性检验也同样重要，但在施行起来，其难度大于评价者内的可靠性检验，最好是在应用领域内，定期组织、交流经验，讨论、统一评价尺度，是提高读片质量，保证临床和科研工作可比性的重要措施。

参考文献

张绍岩, 吴真列, 沈勋章, 等. 中国人手腕骨发育标准-中华05 II. RUS-CHN 和TW3-C腕骨方法的读片可靠性.中国运动医学杂志, 2006, 25(6): 641-646.

Acheson RM, Vicinus JH and Fowler GB. Studies in the reliability of assessing skeletal maturity from X-ray. Part II. The Bone-Specific Approach. Hum Biol, 1964, 36:211-228.

Acheson RM, Vicinus JH and Fowler GB. Studies in the reliability of assessing skeletal maturity from X-ray.

Part III. Greulich-Pyle atlas and Tanner-Whitehouse method contrasted. Hum Biol, 1966, 38:205-218.

Acheson RM, Fowler GB, Fry EI, et al. Studies in the reliability of assessing skeletal maturity from X-ray. I. Greulich-Pyle atlas. Hum Biol, 1963, 35:317-349.

Baughan B, Demirjian A, and Levesque GY. Skeletal maturity standards for French-Canadian children of school-age with a discussion of the reliability and validity of such measures. Hum Biol, 1979, 51(3): 353-370.

Beunen G. and Cameron N. The reproducibility of TW2 skeletal age assessments by a self-taught assessor.Ann Hum Biol, 1980,7(2): 155-162.

Medicus H, Gron AM andMoorees CFA. Reproducilibity of rating stages of osseous development. Am J Phys Anthropol, 1971, 35:359-372.

Wenzel A. and Melsen B. Replicability of assessing radiographs by the Tanner and Whitehouse-2 method. Hum Biol, 1982, 54(3):575-581.

Taranger J, Burning B, Claesson I, et al. Skeletal development from birth to 7 years. Acta Paediatr Scand, 1976,258 (Suppl.):98-108.

Tanner, JM and Gibbons RD. A computerized image analysis system for estimating Tanner-Whitehouse 2 bone age. Horm Res, 1994, 42:282-287.

进入列表