不同评价者在使用同一种测试工具时所给出的分数之间的一致性程