量化里最耗人的不是策略,而是数据。源头零散、口径不一、单源偶发错值、没人盯新鲜度——每一项都足以让研究结论失真。本文讲数据质量的几道防线。
任何单一数据源都会偶发缺失或错值:停牌处理不一致、字段口径漂移、接口限流、个别价格离谱。只信一个源,等于把研究建在沙子上。
同一指标用多个源比对,偏离超过阈值就自动标记,并取信更可靠的源。这样个别错值不会悄悄进入因子。
用"物理规则"拦截脏数据:最高价 ≥ 最低价、成交量 ≥ 0、单日涨跌幅在合理区间、价格非负等。违反物理约束的数据直接拦下——这能抓出大量上游 bug(比如把市值当成交量)。
每类数据都有时效阈值(实时行情秒级、财报按披露周期),过期即告警。"数据是否新鲜"不能靠人肉记,要有中央监控。
单一上游异常时自动降级 / 切换,不中断下游取数。高可用 7×24。
把"找数据、清数据、对数据"做成一层稳定服务,量化研究就能只管用数据。这正是 ReachRich 的定位。详见 稳定与准确。