ReachRich › 洞察 › 新闻情感分析:词典法 vs ML 模型的取舍

新闻情感分析:词典法 vs ML 模型的取舍

把财经新闻量化成"利好/利空/中性"打分,是构造事件驱动因子的常见路径。两条主流路线——词典法(基于情感词典加权)和ML 模型(LLM 或微调 transformer)——各有取舍。本文讲怎么选(方法论)。

词典法

构造一个金融领域情感词典(POS 词 32 个 / NEG 词 28 个之类),对一篇新闻按词频加权:

sentiment = Σ(POS hit · w_pos) - Σ(NEG hit · w_neg)

优点: - 透明、可审计、零延迟、零成本; - 易于按领域定制(A股有大量"庄股""高送转""借壳"等本地金融语义); - 不需要训练数据,冷启动快。

缺点: - 不识别上下文反转("不会亏损" vs "亏损严重"); - 不识别隐喻、对比、否定语境; - 准确率天花板有限。

用预训练 LLM(中文 BERT、Llama、Qwen 等)直接分类,或微调专用情感模型。

优点: - 准确率显著高于词典法,特别是复杂句式; - 能识别上下文、否定、对比; - 可以做更细粒度任务(实体抽取、关系判定)。

缺点: - 计算成本高(LLM 推理 ~秒级,大批量贵); - 可解释性差("为什么这条是利空?"无法直接答); - 需要标注数据微调,或依赖商业 API。

无论哪种方式,前提是有干净的新闻流 + 实体绑定(哪条新闻关联哪只股票/概念)。这一层 ReachRich 在资讯模块统一处理,提供原文 + 情感打分 + AI 摘要,上层选用哪种打分由用户决定。