新闻与公告：更接近“事实触发器”
典型包括监管表态、宏观数据、交易所公告、项目升级、融资与合作关系披露等。其价值在于提供可定位的时间点与事件边界，适合作为“叙事起点”。
社媒与社区讨论：更接近“情绪与注意力代理”
典型包括讨论量、转发结构、KOL 集中度、情绪极性、话题聚类等。其价值在于衡量叙事扩散速度与拥挤程度，适合作为“叙事强度与风险温度”。
链上与成交结构：更接近“资金行为证据”
典型包括大额转账、交易所净流入流出、稳定币供给变化、衍生品未平仓与资金费率、成交分布等。其价值在于验证叙事是否真正转化为资金动作，适合作为“兑现检验层”。

叙事交易的关键不是只用某一类数据，而是让三类数据形成互补：新闻给起点，社媒给温度，链上给验证。

二、新闻数据：强触发、弱持续性，必须处理“预期差”

新闻类信号的优势是事件边界清晰，便于做时间序列研究。但其常见陷阱同样明显：

预期差问题：市场可能已提前交易，公开新闻出现时反而出现反向走势；
语义歧义：同一表述在不同语境下可被解读为利好或利空；
来源质量参差：转载链路过长会导致信息失真或滞后。

因此，新闻数据更适合作为“事件表（Event Calendar）”与“叙事标签库”的基础，而不是直接作为高频交易触发器。

实务上通常将新闻处理为三类标签：

事件类型（监管/宏观/项目/安全事件等）
影响方向（偏风险上行/偏风险下行/结构性不确定）
影响层级（全局/赛道/单资产）

三、社媒数据：强扩散、强噪声，必须处理“操纵与同质化”

社媒数据对叙事交易极其敏感，因为它直接刻画注意力迁移。但其噪声结构也更复杂：

同质化与复读：大量账号重复同一话术，讨论量上升未必代表新增信息；
操纵与刷量：机器人、水军、协同炒作会制造虚假热度；
情绪极化：极端情绪往往伴随高波动，信号可能呈现“尖峰脉冲”。

因此，社媒数据更适合产出“扩散结构指标”，而不是简单情绪打分。

更有价值的结构维度包括：

讨论是否从少数节点扩散到更广谱用户；
话题是否出现跨平台共振；
情绪是否从分歧走向一致（或从一致走向分歧）。

这些维度比“正面/负面词频”更接近资金行为的形成过程。

四、链上数据：强验证、弱解释，必须处理“因果滞后”

链上数据的最大优势是可验证、难伪造（在统计意义上），适合作为叙事的“兑现层”。但其难点在于解释链条：

同一链上现象可能对应多种叙事
例如交易所净流入上升，既可能是抛压准备，也可能是做市或对冲行为。
因果方向不总是清晰
链上变化可能滞后于价格，也可能领先于价格，需要结合衍生品与现货微观结构判断。

因此，链上数据更适合回答“资金是否真的在动”，而不是“为什么一定上涨”。

在叙事交易框架中，链上指标通常承担三类验证任务：

叙事出现后是否出现持续资金路径；
叙事拥挤期是否出现异常集中度；
价格剧烈波动前后是否出现结构性转账行为。

五、把三类数据组织成“证据金字塔”

为降低噪声并提高可执行性，可采用三层金字塔结构：

底层：链上与成交结构（硬证据）
用于验证叙事是否兑现为资金行为。
中层：社媒扩散与情绪结构（软证据）
用于衡量叙事强度、拥挤度与持续性。
顶层：新闻与关键事件（触发器）
用于定位叙事起点与更新节奏。

该结构的意义在于：任何交易动作都应尽量满足“至少两层证据共振”。单层证据（尤其只有社媒热度）通常只能作为观察对象，而非稳定策略输入。

六、时间对齐：叙事交易最容易被低估的工程问题

三类数据的时间粒度不同：新闻以分钟/小时计，社媒以秒级脉冲计，链上以区块时间计。

如果时间对齐不严谨，极易产生“伪相关”：

用未来信息解释过去价格（时间穿越）；
把滞后链上数据当作即时触发（因果倒置）。

实务上需要建立统一时间轴：

事件时间（新闻发布时间）
讨论峰值时间（社媒热度窗口）
资金迁移时间（链上转账确认与聚合窗口）

时间对齐是后续一切评分模型的前置条件，也是叙事研究能否进入实盘的关键门槛。

简单案例：时间对齐错误如何导致误判

场景：某代币发布利好消息

实际时间线（已对齐）

12:00｜事件时间：项目发布合作新闻
12:00–12:05｜社媒扩散：讨论升温，12:03 达到峰值
12:02–12:15｜链上资金：资金开始入场（存在确认与数据延迟）
12:01–12:08｜价格反应：价格开始上涨

常见错误

把“数据出现时间”当作“真实发生时间”

链上数据面板显示时间：12:10
实际交易发生时间：12:02–12:04

误判结果：价格先上涨，链上资金随后进入，从而得出“链上不是驱动因素”的错误结论。

时间穿越（用未来解释过去）

使用 12:03 的社媒热度峰值
解释 12:01 的价格上涨

问题在于：引入了未来信息，导致回测结果失真。

正确做法

需要统一时间轴并明确各类时间定义：

新闻：发布时间（Event Time）
社媒：热度形成区间（而非单点时间）
链上：回推实际发生时间（剔除区块确认与索引延迟）
价格：撮合成交时间

如果时间未对齐，得到的是表面相关性；只有在统一时间框架下，才能识别真实的驱动关系。这也是叙事交易从研究走向实盘的关键前提。

七、数据质量与风控前置：叙事交易的“准入门槛”

在进入建模之前，建议先定义数据准入规则，例如：

新闻来源白名单与交叉验证机制；
社媒账号可信度分层与异常流量过滤；
链上地址标签库更新频率与误标容忍度。

没有准入规则的数据堆叠，只会放大过拟合风险。

叙事交易的长期竞争力，很大程度取决于数据治理是否工程化，而不是指标是否花哨。

八、本课小结

本课完成了数据层的核心划分：

新闻提供事件触发与叙事起点；
社媒刻画注意力扩散与情绪温度；
链上验证资金路径与行为兑现。

同时，本课提出了“证据金字塔”与“时间对齐”两个工程原则，为后续结构化建模提供边界条件。

下一课将进入方法论核心：叙事标签、情绪评分与事件图谱，重点讨论如何把非结构化文本与链上行为转化为可计算、可回测、可监控的指标体系。

免责声明

* 投资有风险，入市须谨慎。本课程不作为投资理财建议。

* 本课程由入驻 Gate Learn 的作者创作，观点仅代表作者本人，绝不代表 Gate Learn 赞同其观点或证实其描述。

第 1 课:为什么情绪与叙事会主导短中期价格？

2 已学过

第 2 课:数据源拆解：新闻、社媒与链上行为的信号价值

2 已学过

第 3 课:结构化方法：叙事标签、情绪评分与事件图谱

2 已学过

第 4 课:从评分到交易：如何把叙事信号映射为策略动作

2 已学过

第 5 课:风险管理：叙事拥挤、信息滞后与假信号过滤

1 已学过

第 6 课:叙事交易系统的长期运营：监控、复盘、迭代与组合治理

1 已学过

数据源拆解：新闻、社媒与链上行为的信号价值

本课从“信号—噪声—验证”三要素出发，系统拆解新闻、社媒与链上数据在叙事交易中的不同角色，并建立一套可复用的数据分层框架，为后续结构化评分与策略映射打基础。

一、三类数据的本质差异：事实、观点与行为

二、新闻数据：强触发、弱持续性，必须处理“预期差”

三、社媒数据：强扩散、强噪声，必须处理“操纵与同质化”

四、链上数据：强验证、弱解释，必须处理“因果滞后”

五、把三类数据组织成“证据金字塔”

六、时间对齐：叙事交易最容易被低估的工程问题

简单案例：时间对齐错误如何导致误判

实际时间线（已对齐）

常见错误

正确做法

七、数据质量与风控前置：叙事交易的“准入门槛”

八、本课小结

第 1 课:为什么情绪与叙事会主导短中期价格？

第 2 课:数据源拆解：新闻、社媒与链上行为的信号价值

第 3 课:结构化方法：叙事标签、情绪评分与事件图谱

第 4 课:从评分到交易：如何把叙事信号映射为策略动作

第 5 课:风险管理：叙事拥挤、信息滞后与假信号过滤

第 6 课:叙事交易系统的长期运营：监控、复盘、迭代与组合治理

相关课程

Aethir 介绍

加密货币领域的身份验证项目概览

加密领域自主研究指南（DYOR）

稳定币基础

解析 L1 区块链：Kaia

Web3 数据与分析