把财经新闻量化成"利好/利空/中性"打分,是构造事件驱动因子的常见路径。两条主流路线——词典法(基于情感词典加权)和ML 模型(LLM 或微调 transformer)——各有取舍。本文讲怎么选(方法论)。
构造一个金融领域情感词典(POS 词 32 个 / NEG 词 28 个之类),对一篇新闻按词频加权:
sentiment = Σ(POS hit · w_pos) - Σ(NEG hit · w_neg)
优点: - 透明、可审计、零延迟、零成本; - 易于按领域定制(A股有大量"庄股""高送转""借壳"等本地金融语义); - 不需要训练数据,冷启动快。
缺点: - 不识别上下文反转("不会亏损" vs "亏损严重"); - 不识别隐喻、对比、否定语境; - 准确率天花板有限。
用预训练 LLM(中文 BERT、Llama、Qwen 等)直接分类,或微调专用情感模型。
优点: - 准确率显著高于词典法,特别是复杂句式; - 能识别上下文、否定、对比; - 可以做更细粒度任务(实体抽取、关系判定)。
缺点: - 计算成本高(LLM 推理 ~秒级,大批量贵); - 可解释性差("为什么这条是利空?"无法直接答); - 需要标注数据微调,或依赖商业 API。
| 场景 | 推荐 |
|---|---|
| 实时大流量打分(每分钟数千篇) | 词典法 + 关键字典优化 |
| 关键新闻深度解析(财报、公告) | LLM 二次精读 |
| 生成研究摘要 | LLM(GPT/Claude/Qwen)做 AI 摘要 |
| 可解释 + 可审计场景(投顾合规) | 词典法主导 + LLM 抽样审核 |
无论哪种方式,前提是有干净的新闻流 + 实体绑定(哪条新闻关联哪只股票/概念)。这一层 ReachRich 在 资讯 模块统一处理,提供原文 + 情感打分 + AI 摘要,上层选用哪种打分由用户决定。