第 2 课

数据源拆解:新闻、社媒与链上行为的信号价值

本课从“信号—噪声—验证”三要素出发,系统拆解新闻、社媒与链上数据在叙事交易中的不同角色,并建立一套可复用的数据分层框架,为后续结构化评分与策略映射打基础。

一、三类数据的本质差异:事实、观点与行为

在实务中,可把三类数据源理解为三种“证据类型”:

  1. 新闻与公告:更接近“事实触发器”
    典型包括监管表态、宏观数据、交易所公告、项目升级、融资与合作关系披露等。其价值在于提供可定位的时间点与事件边界,适合作为“叙事起点”。
  2. 社媒与社区讨论:更接近“情绪与注意力代理”
    典型包括讨论量、转发结构、KOL 集中度、情绪极性、话题聚类等。其价值在于衡量叙事扩散速度与拥挤程度,适合作为“叙事强度与风险温度”。
  3. 链上与成交结构:更接近“资金行为证据”
    典型包括大额转账、交易所净流入流出、稳定币供给变化、衍生品未平仓与资金费率、成交分布等。其价值在于验证叙事是否真正转化为资金动作,适合作为“兑现检验层”。

叙事交易的关键不是只用某一类数据,而是让三类数据形成互补:新闻给起点,社媒给温度,链上给验证。

二、新闻数据:强触发、弱持续性,必须处理“预期差”

新闻类信号的优势是事件边界清晰,便于做时间序列研究。但其常见陷阱同样明显:

  • 预期差问题:市场可能已提前交易,公开新闻出现时反而出现反向走势;
  • 语义歧义:同一表述在不同语境下可被解读为利好或利空;
  • 来源质量参差:转载链路过长会导致信息失真或滞后。

因此,新闻数据更适合作为“事件表(Event Calendar)”与“叙事标签库”的基础,而不是直接作为高频交易触发器。

实务上通常将新闻处理为三类标签:

  • 事件类型(监管/宏观/项目/安全事件等)
  • 影响方向(偏风险上行/偏风险下行/结构性不确定)
  • 影响层级(全局/赛道/单资产)

三、社媒数据:强扩散、强噪声,必须处理“操纵与同质化”

社媒数据对叙事交易极其敏感,因为它直接刻画注意力迁移。但其噪声结构也更复杂:

  • 同质化与复读:大量账号重复同一话术,讨论量上升未必代表新增信息;
  • 操纵与刷量:机器人、水军、协同炒作会制造虚假热度;
  • 情绪极化:极端情绪往往伴随高波动,信号可能呈现“尖峰脉冲”。

因此,社媒数据更适合产出“扩散结构指标”,而不是简单情绪打分。

更有价值的结构维度包括:

  • 讨论是否从少数节点扩散到更广谱用户;
  • 话题是否出现跨平台共振;
  • 情绪是否从分歧走向一致(或从一致走向分歧)。

这些维度比“正面/负面词频”更接近资金行为的形成过程。

四、链上数据:强验证、弱解释,必须处理“因果滞后”

链上数据的最大优势是可验证、难伪造(在统计意义上),适合作为叙事的“兑现层”。但其难点在于解释链条:

  • 同一链上现象可能对应多种叙事
    例如交易所净流入上升,既可能是抛压准备,也可能是做市或对冲行为。
  • 因果方向不总是清晰
    链上变化可能滞后于价格,也可能领先于价格,需要结合衍生品与现货微观结构判断。

因此,链上数据更适合回答“资金是否真的在动”,而不是“为什么一定上涨”。

在叙事交易框架中,链上指标通常承担三类验证任务:

  • 叙事出现后是否出现持续资金路径;
  • 叙事拥挤期是否出现异常集中度;
  • 价格剧烈波动前后是否出现结构性转账行为。

五、把三类数据组织成“证据金字塔”

为降低噪声并提高可执行性,可采用三层金字塔结构:

  • 底层:链上与成交结构(硬证据)
    用于验证叙事是否兑现为资金行为。
  • 中层:社媒扩散与情绪结构(软证据)
    用于衡量叙事强度、拥挤度与持续性。
  • 顶层:新闻与关键事件(触发器)
    用于定位叙事起点与更新节奏。

该结构的意义在于:任何交易动作都应尽量满足“至少两层证据共振”。单层证据(尤其只有社媒热度)通常只能作为观察对象,而非稳定策略输入。

六、时间对齐:叙事交易最容易被低估的工程问题

三类数据的时间粒度不同:新闻以分钟/小时计,社媒以秒级脉冲计,链上以区块时间计。

如果时间对齐不严谨,极易产生“伪相关”:

  • 用未来信息解释过去价格(时间穿越);
  • 把滞后链上数据当作即时触发(因果倒置)。

实务上需要建立统一时间轴:

  • 事件时间(新闻发布时间)
  • 讨论峰值时间(社媒热度窗口)
  • 资金迁移时间(链上转账确认与聚合窗口)

时间对齐是后续一切评分模型的前置条件,也是叙事研究能否进入实盘的关键门槛。

简单案例:时间对齐错误如何导致误判

场景:某代币发布利好消息

实际时间线(已对齐)

  • 12:00|事件时间:项目发布合作新闻
  • 12:00–12:05|社媒扩散:讨论升温,12:03 达到峰值
  • 12:02–12:15|链上资金:资金开始入场(存在确认与数据延迟)
  • 12:01–12:08|价格反应:价格开始上涨

常见错误

把“数据出现时间”当作“真实发生时间”

  • 链上数据面板显示时间:12:10
  • 实际交易发生时间:12:02–12:04

误判结果:价格先上涨,链上资金随后进入,从而得出“链上不是驱动因素”的错误结论。

时间穿越(用未来解释过去)

  • 使用 12:03 的社媒热度峰值
  • 解释 12:01 的价格上涨

问题在于:引入了未来信息,导致回测结果失真。

正确做法

需要统一时间轴并明确各类时间定义:

  • 新闻:发布时间(Event Time)
  • 社媒:热度形成区间(而非单点时间)
  • 链上:回推实际发生时间(剔除区块确认与索引延迟)
  • 价格:撮合成交时间

如果时间未对齐,得到的是表面相关性;只有在统一时间框架下,才能识别真实的驱动关系。这也是叙事交易从研究走向实盘的关键前提。

七、数据质量与风控前置:叙事交易的“准入门槛”

在进入建模之前,建议先定义数据准入规则,例如:

  • 新闻来源白名单与交叉验证机制;
  • 社媒账号可信度分层与异常流量过滤;
  • 链上地址标签库更新频率与误标容忍度。

没有准入规则的数据堆叠,只会放大过拟合风险。

叙事交易的长期竞争力,很大程度取决于数据治理是否工程化,而不是指标是否花哨。

八、本课小结

本课完成了数据层的核心划分:

  • 新闻提供事件触发与叙事起点;
  • 社媒刻画注意力扩散与情绪温度;
  • 链上验证资金路径与行为兑现。

同时,本课提出了“证据金字塔”与“时间对齐”两个工程原则,为后续结构化建模提供边界条件。

下一课将进入方法论核心:叙事标签、情绪评分与事件图谱,重点讨论如何把非结构化文本与链上行为转化为可计算、可回测、可监控的指标体系。

免责声明
* 投资有风险,入市须谨慎。本课程不作为投资理财建议。
* 本课程由入驻 Gate Learn 的作者创作,观点仅代表作者本人,绝不代表 Gate Learn 赞同其观点或证实其描述。