技术文章
TECHNICAL ARTICLES在温度 - 修正系数校准的数据处理中,异常值和缺失值的处理直接影响修正模型的准确性,需结合统计方法和校准场景特性科学处理,避免因数据偏差导致拟合公式失真。以下是具体方法和操作原则:
一、异常值的处理:识别与剔除
异常值是指偏离数据集整体趋势的及端值(如因温度波动、气泡干扰、操作失误导致的错误数据),处理步骤包括 “识别→验证→剔除 / 修正":
1. 异常值的识别方法
统计法(常用):
3σ 原则:对同一温度 - 浓度组合下的重复测量值(如 5 次),计算平均值(μ)和标准差(σ),若某数据满足 “|x - μ|> 3σ",则判定为异常值(适用于数据近似正态分布的场景)。
示例:5 次测量值为 [0.03, 0.02, 0.04, 0.10, 0.03],μ=0.044,σ=0.034,0.10 满足 “0.10 - 0.044 = 0.056 > 3×0.034=0.102?不,0.056 < 0.102,此处举例调整为 0.15,则 0.15-0.044=0.106>0.102,判定为异常)。
格拉布斯检验(Grubbs' test):更严格的统计方法,通过计算统计量 G = |x - μ|/σ,与临界值(根据样本量和置信水平查表)对比,若 G > 临界值,则为异常值(适用于小样本,如 n=3~10)。
经验法(辅助判断):
结合校准场景的物理意义判断,例如:
0 NTU 标准液(超纯水)的测量值突然跳升至 0.1 NTU 以上,可能是镜片污染或气泡干扰,判定为异常;
温度稳定后,同一浓度的测量值波动超过 ±0.05 NTU(高精度场景),可能是设备故障,需排查后重新测量。
2. 异常值的处理原则
可溯源的异常值:若明确因操作失误(如标准液污染)、设备波动(如恒温槽跳变)导致,直接剔除,并用剩余数据重新计算均值(需确保剩余样本量≥3 次,否则需重新测量)。
疑似异常值:若无法确定原因,可通过 “重复测量" 验证 —— 对该温度 - 浓度组合重新测量 3 次,若新数据与原非异常值一致,则剔除原异常值;若新数据仍波动大,需检查传感器状态(如清洁度、光源稳定性)。
禁止直接修改异常值:不得为 “拟合效果" 人为调整异常值,需保留原始记录(如在备注栏标注 “第 4 次测量因气泡干扰剔除"),确保数据可追溯。
二、缺失值的处理:补全与标记
缺失值指因设备故障、记录遗漏或样本污染导致的部分数据缺失(如某温度点的 10 NTU 数据未记录),处理需根据缺失原因和影响范围选择方法:
1. 缺失值的补全方法
直接补测(优先):若缺失数据量少(如 1 个温度点的 1 组浓度),且校准过程可重复,必须重新测量补全,避免因数据缺失导致拟合公式偏差(尤其关键温度点,如 25℃常温)。
插值法(无法补测时):
线性插值:适用于温度点连续且趋势稳定的场景,例如:已知 15℃时 10 NTU 的 K 值为 0.98,25℃时为 1.015,缺失 20℃数据,则插值 K = 0.98 + (20-15)/(25-15)×(1.015-0.98) = 0.9975。
邻近均值法:若缺失点附近有多个数据(如缺失 30℃,但 25℃和 35℃数据完整),取邻近两点的均值作为补值(适用于温度变化平缓的场景)。
模型预测法(辅助):若已建立初步拟合公式,可通过公式预测缺失值,但需在结果中注明 “该值为模型预测,非实测",且后续需补测验证。
2. 缺失值的处理原则
关键数据不允许缺失:传感器量程覆盖的核心温度点(如 10~30℃)和关键浓度点(如 0 NTU、1 NTU、10 NTU)必须完整,否则需终止校准,排查原因后重新进行。
缺失比例控制:若缺失数据占总数据量的比例超过 10%(如 100 组数据缺失 10 组以上),校准结果不可靠,需重新开展校准,避免拟合公式因数据不足导致偏差。
明确标记缺失来源:在数据表格中用 “NA" 标注缺失值,并在备注栏说明原因(如 “20℃时设备断电导致数据缺失"),方便后续追溯。
三、处理后的验证与记录
验证处理效果:
异常值剔除或缺失值补全后,需重新计算均值和拟合公式,对比处理前后的拟合优度(R²)—— 若 R² 显著提升(如从 0.95 升至 0.99),说明处理有效;若变化不大或下降,需检查是否误判异常值。
完整记录处理过程:
在校准报告中详细记录:
异常值的识别方法、剔除依据及原始值;
缺失值的补全方法(如插值公式、补测时间);
处理前后的数据对比(如均值变化、拟合参数调整)。
总结
异常值处理的核心是 “基于统计和物理意义的客观剔除",避免及端值扭曲趋势;缺失值处理的核心是 “优先补测,谨慎插值",确保数据完整性。二者均需以 “不人为干预真实趋势" 为原则,并通过记录和验证保证处理过程的可追溯性,最终为温度 - 修正系数的准确性奠定基础。