📝 我的笔记

还没有笔记

选中页面文字后点击「高亮」按钮添加

1 数据与动机实例

📜 原文
📖 逐步解释
∑ 公式拆解
💡 数值示例
⚠️ 易错点
📝 总结
🎯 存在目的
🧠 直觉心智模型
💭 直观想象

11 数据与动机实例

11 数据集描述与来源

📜 [原文1]

我们的原始数据集包含美国和中国市场股票的逐笔交易与报价记录。我们收集了美国市场从 1993 年到 2023 年以及中国市场从 2014 年到 2023 年的数据。在大部分分析中,我们关注 2019 年到 2021 年期间,但在适当的情况下,我们使用完整的数据集进行稳健性和时间序列模式分析。我们从纽约证券交易所交易与报价 (TAQ) 数据库获取美国市场的数据,从中收集了 2019-2021 年 757 个交易日内作为标准普尔 500 指数成份股的股票信息。我们从深圳证券交易所 (SZSE) 历史逐笔数据 11 获取中国市场的数据,其中包含 2019-2021 年 730 个交易日内在深交所交易的所有 2,081 只股票。因此,我们的主数据集包含总共 2573 ($492+2081$) 只股票的日内交易数据(交易和报价)。

📖 [逐步解释]

这段话是论文数据部分的开篇,旨在清晰地告知读者本研究使用了哪些数据、数据的时间跨度、来源以及最终筛选出的样本范围。这是任何实证研究的根基,其目的是为了保证研究的透明性和可复现性。

  1. 数据类型:研究的核心数据是“逐笔交易与报价记录”(Tick-by-tick data)。这不是我们常见的日线、小时线或分钟线数据,而是记录了市场上每一笔成交(Trade)和每一次报价变动(Quote)的最高频率数据。
  • 交易记录 (Trade):包含了成交的时间(精确到毫秒)、价格、成交量等信息。
  • 报价记录 (Quote):包含了买卖报价的变化,如买一价、卖一价、对应的挂单量等。这种数据能提供市场流动性和订单簿动态的深刻洞见。
  1. 市场范围:研究覆盖了全球两个最大的资本市场——美国中国。选择这两个市场具有很强的代表性,它们的市场结构、交易者行为和交易制度有显著差异,可以检验模型和发现的普适性。
  2. 时间跨度
  • 完整数据集:美国市场从 1993 年到 2023 年(跨度 30 年),中国市场从 2014 年到 2023 年(跨度 9 年)。这个长周期的数据主要用于“稳健性”和“时间序列模式分析”,比如检验发现的周期性规律在几十年的时间里是否稳定存在。
  • 主要分析期:2019 年到 2021 年。作者将分析的重点放在这个三年期间。选择这个时期的原因可能是为了平衡数据处理的计算成本和样本的代表性,并且这段时间包含了市场在不同宏观环境(如疫情前后)下的表现。
  1. 数据来源
  • 美国市场:数据来自 纽约证券交易所交易与报价 (TAQ) 数据库。这是研究美国股市高频数据的标准、权威数据库,由纽交所官方发布,包含了所有在美国交易所上市股票的全部交易和报价数据,质量非常高。
  • 中国市场:数据来自 深圳证券交易所 (SZSE) 历史逐笔数据。这同样是官方来源的高质量数据。
  1. 样本筛选
  • 美国样本:在主要分析期(2019-2021)内,作者选取了“作为标准普尔 500 指数 (S&P 500) 成份股的股票”。S&P 500 指数包含了美国 500 家顶尖的上市公司,这些公司市值大、流动性好,是美国经济的晴雨表。选择它们作为样本,可以避免小市值股票流动性差、噪声大的问题。原文提到有 492 只,这可能是因为有些公司在该期间内被替换出指数,或者数据存在缺失。
  • 中国样本:选取了“在深交所交易的所有 2,081 只股票”。这表明作者对深交所的股票进行了全样本分析,覆盖范围非常广。
  • 总样本量:最终用于主要分析的股票总数为 $492$ (美国) + $2081$ (中国) = $2573$ 只。这个庞大的样本量是本研究结论可靠性的重要保障。
💡 [数值示例]
  • 示例1 (数据筛选过程):假设一个研究员想要复现这个研究。他需要先访问 TAQ 数据库,筛选出 2019年1月1日到2021年12月31日之间,所有被列为 S&P 500 成分股的公司代码(例如 AAPL, MSFT, GOOG)。然后,他需要提取这些公司在这 757 个交易日内所有的交易和报价记录。对于中国市场,他需要获取深交所 2019-2021 年的数据,并提取所有 2081 只股票的逐笔数据。
  • 示例2 (总样本计算):论文明确给出了最终用于分析的股票数量是如何加总的。
  • 美国市场 S&P 500 股票数量: $N_{US} = 492$
  • 中国深交所股票数量: $N_{CN} = 2081$
  • 总股票数量: $N_{Total} = N_{US} + N_{CN} = 492 + 2081 = 2573$ 只。

这个简单的加法清晰地展示了研究覆盖的广度。

⚠️ [易错点]
  1. 数据清洗问题:原始的逐笔数据非常“脏”,可能包含交易所错误、数据传输延迟、异常值等。虽然原文没有详述,但在实际操作中,数据清洗是至关重要的一步,例如剔除交易时间不在规定时段内的数据、处理价格或成交量为零或负的异常记录。
  2. 指数成分股变动S&P 500 指数的成分股不是一成不变的,每年都会有公司被纳入或剔除。作者提到 492 只股票,暗示他们可能处理了这种变动,比如只保留在整个 2019-2021 期间始终是成分股的公司,或者将在期间内曾是成分股的公司都包含进来。这是一个需要小心处理的细节。
  3. 数据源的选择:论文只用了深交所(SZSE)的数据,而没有用上海证券交易所(SSE)的数据。这可能是一个研究选择,可能是因为数据可得性,也可能是为了将分析限制在一个交易规则相似的市场内。读者需要注意,结论对上交所的普适性需要进一步验证。

12 数据处理与时间序列构建

📜 [原文2]

根据原始数据,我们每三秒计算一次所有股票在所有交易日内的日内交易量。在美国市场,公开市场交易时间为上午 9:30 至下午 4:00。因此,每只股票在每个交易日的时间序列包含 7,800 个数据点(390 分钟 / 3 秒)。在中国市场,公开市场交易时间为上午 9:30 至 11:30 以及下午 1:00 至 2:57。$\sqrt{12}$ 因此,每只股票在每个交易日的时间序列包含 4,740 个数据点(237 分钟 / 3 秒)。总计,我们处理后的 3 秒时间序列数据包含约 $10^{10}$ 个样本 ($492(\text{股票}) \times 757(\text{天}) \times 7800+2081(\text{股票}) \times 730(\text{天}) \times 4740$)。

📖 [逐步解释]

这一段详细说明了作者如何将原始的、非等间隔的逐笔交易数据转换为等时间间隔的时间序列数据,这是进行谱分析等时间序列分析方法的前提。

  1. 数据聚合(Resampling): 作者选择了一个固定的时间窗口——“每三秒”——来对数据进行聚合。这意味着他们把连续的交易时间轴切分成无数个 3 秒长的小段,然后统计每个小段内发生的交易量。这个过程也叫“时间序列采样”或“盘整”。选择 3 秒而不是 1 秒或 5 秒,是研究者在信噪比和时间分辨率之间做出的权衡。时间窗口太短,很多窗口内可能没有交易,数据稀疏;窗口太长,则会平滑掉一些高频的细节。
  2. 美国市场数据点计算:
  • 交易时间: 美国市场的常规交易时间是从上午 9:30 到下午 4:00(16:00)。
  • 总时长: 总时长为 6.5 小时。换算成分钟是 $6.5 \times 60 = 390$ 分钟。
  • 数据点数量: 将总分钟数换算成秒,再除以采样间隔。总秒数是 $390 \text{ 分钟} \times 60 \text{ 秒/分钟} = 23400$ 秒。每个数据点代表 3 秒,所以每天的数据点总数是 $23400 \text{ 秒} / 3 \text{ 秒/点} = 7800$ 个数据点。
  1. 中国市场数据点计算:
  • 交易时间: 中国 A 股市场有午休制度。上午盘:9:30 - 11:30(2 小时);下午盘:13:00 - 14:57(1 小时 57 分钟)。注:原文下午收盘时间写的是 2:57,这可能是为了处理最后几分钟的集合竞价或者数据统计的特殊口径,常规交易时段到 15:00。我们以原文为准。
  • 总时长: 上午时长为 $120$ 分钟。下午时长为 $1 \times 60 + 57 = 117$ 分钟。总交易时长为 $120 + 117 = 237$ 分钟。
  • 数据点数量: 总秒数是 $237 \text{ 分钟} \times 60 \text{ 秒/分钟} = 14220$ 秒。每个数据点代表 3 秒,所以每天的数据点总数是 $14220 \text{ 秒} / 3 \text{ 秒/点} = 4740$ 个数据点。
  1. 总样本规模计算: 这是对整个数据集大小的一个宏观估计,展示了研究处理的数据量之巨大。
  • 美国部分: 492 只股票 $\times$ 757 天 $\times$ 每天 7800 个数据点。
  • 中国部分: 2081 只股票 $\times$ 730 天 $\times$ 每天 4740 个数据点。
  • 总和: 将这两部分相加,得到了一个约等于 $10^{10}$(一百亿)的惊人数字,这凸显了研究的计算密集型特征和数据规模的庞大。
∑ [公式拆解]

本段包含一个核心的计算总样本量的公式:

$$ \text{总样本} \approx 492(\text{股票}) \times 757(\text{天}) \times 7800 + 2081(\text{股票}) \times 730(\text{天}) \times 4740 $$

  • 第一项:美国市场总样本量
  • $492 (\text{股票})$: 美国市场选取的 S&P 500 成分股数量。
  • $757 (\text{天})$: 2019-2021 年期间美国市场的总交易日数。
  • $7800$: 每只美国股票在每个交易日生成的 3 秒间隔数据点数量。
  • 该项乘积 $492 \times 757 \times 7800 = 2,907,556,800$,约 29.1 亿。
  • 第二项:中国市场总样本量
  • $2081 (\text{股票})$: 中国市场(深交所)选取的股票数量。
  • $730 (\text{天})$: 2019-2021 年期间中国市场的总交易日数。
  • $4740$: 每只中国股票在每个交易日生成的 3 秒间隔数据点数量。
  • 该项乘积 $2081 \times 730 \times 4740 = 7,192,435,800$,约 71.9 亿。
  • 总和
  • $2,907,556,800 + 7,192,435,800 = 10,099,992,600$
  • 这个结果约等于 $10,000,000,000$,即 $10^{10}$。所以论文中“约 $10^{10}$ 个样本”的说法是准确的。
💡 [数值示例]
  • 示例1 (一只股票一天的数据): 以苹果公司 (AAPL) 在 2021 年 10 月 28 日这一天为例。从上午 9:30:00 开始,研究人员会创建一个时间序列。第一个数据点是 9:30:00 到 9:30:03 这个区间内 AAPL 的总交易量,第二个数据点是 9:30:03 到 9:30:06 的总交易量...一直持续到最后一个数据点,即 15:59:57 到 16:00:00 的交易量。这样一天下来,AAPL 这只股票就对应一个长度为 7800 的向量。
  • 示例2 (简化总样本计算): 假设我们只研究 2 只美国股票和 5 只中国股票,时间只看 10 天。
  • 美国部分样本量 = $2 \times 10 \times 7800 = 156,000$
  • 中国部分样本量 = $5 \times 10 \times 4740 = 237,000$
  • 总样本量 = $156,000 + 237,000 = 393,000$。这个简化的例子可以帮助我们理解总样本量是如何由股票数、天数和每日数据点数三个维度累积起来的。
⚠️ [易错点]
  1. 收盘时间的精确处理:中国市场的下午收盘时间是 15:00,但作者使用了 14:57。这可能是因为最后 3 分钟(14:57-15:00)是收盘集合竞价时间,其交易生成机制与连续竞价不同,作者可能为了保证数据同质性而将其剔除。这是一个需要注意的研究细节。
  2. 节假日和半天交易日:交易日数 757(美国)和 730(中国)是作者统计好的。在实际操作中,需要一个准确的交易日历来排除周末和节假日。此外,美国市场在某些节日前夕(如感恩节次日)会提前收盘,形成半天交易日。这些半天交易日的数据点数会少于 7800,处理时需要标准化或单独考虑,否则会引入噪声。
  3. 数据对齐问题:当进行跨股票比较时(例如计算横截面平均),必须确保所有股票在同一时刻的时间戳是完全对齐的。比如,A 股票 9:30:03 的数据必须和 B 股票 9:30:03 的数据对应。

13 交易量指标定义

📜 [原文3]

在我们的分析中,我们计算了三个版本的交易量,包括成交笔数、成交股数以及以货币衡量的成交额(美国为美元,[^6]中国为元)。在本文中,我们广义地将它们统称为交易量。我们在第 5.1.1 节讨论了它们的区别,以及为什么我们将成交笔数作为我们的主要研究对象。

📖 [逐步解释]

这一段定义了研究中“交易量”这个核心变量的三种不同衡量方式,并预告了为何最终选择其中一种作为主要分析对象。

  1. 成交笔数 (Number of Trades):指在给定的时间窗口内(这里是 3 秒),发生了多少次交易。无论一次交易是买了 100 股还是 10000 股,都只算作“1笔”。这个指标主要反映了交易的活跃程度信息到达的频率。高频交易者或者算法交易可能会在短时间内产生大量的小额交易,使得成交笔数非常高。
  2. 成交股数 (Number of Shares / Volume):这是最传统意义上的“成交量”,指在给定时间窗口内,所有成交的股票总数。它衡量了实际转手的股票数量。例如,3 秒内发生了两笔交易,一笔 200 股,一笔 500 股,那么成交股数就是 700 股。
  3. 成交额 (Dollar/Yuan Volume):指在给定时间窗口内,所有成交的交易总金额。计算方式是每笔交易的“成交价格 $\times$ 成交股数”,然后加总。它衡量了流经市场的资金量。对于股价差异巨大的两只股票,例如一只 2 美元,一只 500 美元,同样的成交股数(如 1000 股)对应的成交额会天差地别(2000 美元 vs 50 万美元)。成交额能更好地反映交易的经济重要性。
  4. 术语统一与选择预告
  • 作者声明,在没有特别指明的情况下,文中的“交易量”是一个广义的术语,可能指代上述三者中的任意一种。
  • 作者明确指出,后续将把“成交笔数”作为主要研究对象,并将在 5.1.1 节中详细阐述做出这个选择的理由。这通常是因为“成交笔数”更能反映纯粹的、不受股价和单笔交易规模影响的“交易活动节奏”。
💡 [数值示例]
  • 场景: 假设在 3 秒的时间窗口内,股票 XYZ 发生了以下 2 笔交易:
  • 交易 1:在价格 $10.00 买入 500 股。
  • 交易 2:在价格 $10.01 买入 300 股。
  • 计算三种交易量:
  • 成交笔数: 发生了 2 笔交易,所以成交笔数为 2。
  • 成交股数: 总成交股数为 $500 + 300 = 800$ 股。
  • 成交额: 总成交额为 $(10.00 \times 500) + (10.01 \times 300) = 5000 + 3003 = 8003.00$ 美元。
  • 示例2 (高价股 vs 低价股):
  • 股票 A (高价股): 价格 $500/股。3秒内成交 1 笔,共 100 股。
  • 股票 B (低价股): 价格 $5/股。3秒内成交 10 笔,每笔 100 股,共 1000 股。
  • 对比:
  • 成交笔数: A 为 1,B 为 10。股票 B 交易更“频繁”。
  • 成交股数: A 为 100,B 为 1000。股票 B 转手的股数更多。
  • 成交额: A 为 $500 \times 100 = 50,000$ 美元,B 为 $5 \times 1000 = 5,000$ 美元。股票 A 的经济规模更大。
  • 这个例子清晰地展示了三种指标的差异。如果研究者关心的是“交易决策的频率”,那么成交笔数是最好的指标,因为它不受股价和财富效应的影响。
⚠️ [易错点]
  1. 指标选择的重要性:选择哪种交易量指标会直接影响研究结果。例如,使用成交额可能会让高价股的模式在平均时占据主导地位。而使用成交笔数则给予每笔交易同等的权重,更能反映市场参与者的集体节律。作者在此处明确提出选择“成交笔数”并预告会解释原因,是严谨的研究作风。
  2. 数据源对指标的影响:需要确保数据源能准确区分“一笔交易”。有时交易所发布的数据可能是聚合后的,这会影响成交笔数的准确性。使用逐笔交易数据是计算精确成交笔数的前提。
  3. 广义“交易量”的歧义:在阅读文献时,需要特别注意作者对“Volume”的定义。它可以指代成交股数,也可以指代成交额,甚至成交笔数。本文作者在这里做了清晰的界定,避免了混淆。

14 辅助特征与数据引用

📜 [原文4]

附录 B 中的表 A.1 提供了我们三秒日内交易量时间序列的汇总统计。平均而言,美国市场股票每三秒执行 4.38 笔交易,这比中国市场的笔数高出约 50%。此外,在跨股票和跨时间维度上,三秒窗口内的成交笔数存在巨大差异。

我们还根据从原始逐笔数据中获得的日内价格和成交量信息,计算了几个特征来衡量每只股票每天的价格效率、波动率和交易活跃水平。这些特征在第 5.1.2 节中使用。我们还在第 5.2.2 节的价格冲击回归分析中使用了原始逐笔报价和交易数据。

📖 [逐步解释]

这一段是对数据特征的补充说明,并为后续章节的分析埋下伏笔。

  1. 汇总统计 (Summary Statistics):
  • 作者引导读者参考附录中的表格,该表格展示了核心数据(3 秒成交笔数时间序列)的描述性统计。这是展示数据基本分布特征的标准做法。
  • 作者从表格中摘录了一个关键发现:“美国市场股票平均每三秒执行 4.38 笔交易”。这是一个具体的数字,让读者对交易节奏有一个直观感受。
  • 接着,作者做了一个跨市场比较:“比中国市场的笔数高出约 50%”。这说明美国市场的交易更为频繁和活跃。
  • 最后,作者指出了数据的另一个重要特征:“存在巨大差异”。这意味着交易活动在不同股票之间(比如热门股 vs 冷门股)和不同时间点(比如开盘 vs 盘中)的分布非常不均匀,即数据具有很高的异方差性偏度
  1. 其他计算的特征:
  • 作者声明,除了交易量本身,他们还从原始数据中衍生出了一系列其他特征变量。
  • 这些特征的用途是“衡量……价格效率波动率交易活跃水平”。
  • 价格效率: 可能指价格发现的速度,例如用买卖价差(spread)或者价格冲击的衰减速度来度量。
  • 波动率 (Volatility): 即价格变化的剧烈程度,可以用已实现波动率(realized volatility)等高频指标来计算。
  • 交易活跃水平: 除了成交笔数,可能还包括其他指标,如订单簿深度、买卖不平衡等。
  • 作者明确指出,这些额外特征将在 5.1.2 节被用作解释变量或被解释变量,这暗示了后续会有一个回归分析,试图解释是什么因素驱动了交易活动模式的差异。
  1. 原始数据的其他用途:
  • 作者还提到,最原始的逐笔报价和交易数据(而不仅仅是 3 秒聚合数据)也会在 5.2.2 节的“价格冲击回归分析”中被直接使用。这表明研究的范围不止于分析 3 秒交易量序列,还会深入到更微观的层面,研究单笔交易对价格的影响。
💡 [数值示例]
  • 示例1 (平均成交笔数): 美国市场平均每 3 秒有 4.38 笔交易。这意味着在一个典型的 3 秒窗口内,可能会观察到 4 笔或 5 笔交易。而中国市场,根据“高出约 50%”反推,其平均笔数约为 $4.38 / 1.5 \approx 2.92$ 笔/3秒。这表明在任意一个 3 秒窗口,中国市场的股票更可能只有 2 到 3 笔交易。
  • 示例2 (巨大差异的体现): 假设我们看两只美国股票在同一个 3 秒窗口的表现:
  • 股票 A (如 SPY, 一只交易极其活跃的 ETF): 在 9:30:00-9:30:03,成交笔数可能是 150 笔。
  • 股票 B (某冷门 S&P 500 成分股): 在同一时间,成交笔数可能只有 1 笔,甚至 0 笔。
  • 跨时间维度: 对于股票 A,在 9:30:00 开盘时刻的成交笔数是 150,但在中午 12:00:00 的某个 3 秒窗口,成交笔数可能降至 20。这就是“跨股票和跨时间维度上”的巨大差异。
⚠️ [易错点]
  1. 平均值的误导性: “平均 4.38 笔”不代表大多数情况都是 4.38 笔。由于数据存在巨大差异(高度右偏),中位数可能远小于平均数。可能大部分 3 秒窗口的交易笔数是 0, 1 或 2,但少数极其活跃的时刻(如开盘)有成百上千笔交易,从而将平均值拉高。
  2. 附录的重要性: 这段提示我们,要完全理解论文的数据,必须去阅读附录中的表格。正文中通常只呈现最重要的结果,很多细节信息都放在附录里。
  3. 特征工程的复杂性: 计算“价格效率”、“波动率”等指标是一个专门的领域,涉及到复杂的高频数据处理技术。作者在这里只是一笔带过,但在实际研究中,这部分工作量巨大且至关重要。

15 动机实例:U型模式与周期性信号

📜 [原文5]

动机实例。众所周知,美国股市的日内交易量呈现 U 型模式。在中国股市,由于上午 11:30 至下午 1:00 的午休时间,日内交易量呈现两个 U 型。我们使用两只代表性股票——苹果公司 (AAPL) 和平安银行 (000001.SZSE) 来展示这种模式,它们是两个金融市场中两家大盘上市公司。

图 1a 1b 显示了这两只股票在 2019-2021 年所有交易日平均后的、以每个三秒窗口内的成交笔数衡量的日内交易量。除了清晰的 U 型(或双 U 型)日内模式外,两只股票的时间序列至少在视觉上看起来充满了噪声。

然而,当我们关注横截面平均交易量时,这些模式看起来非常不同。图 1c 1d 显示了在 2019-2021 年所有交易日和所有股票上平均后的、以每个三秒窗口内的成交笔数衡量的日内交易量。横截面平均作为一种降噪机制。在中国市场(图 1d),每隔五分钟或十分钟就会出现明显的尖峰,这恰好与垂直网格代表的五分钟时间间隔边界相吻合。虽然不像中国市场那样明显,但同样的模式也存在于美国市场(图 1c),其尖峰往往发生在五分钟时间间隔的边界处。

这个简单的例子清楚地表明,两个市场的交易活动中都存在重要的周期性

图 1:2019-2021 年两只个股的平均日内交易量 (a-b) 以及两个股市的平均值 (c-d)。每个数据点代表所有交易日前三秒窗口内的平均成交笔数。例如,平安银行在 13:30:03 的数值为 18.08,这意味着在 2019-2021 年的 730 个交易日中,每天 13:30:00 到 13:30:03 之间平均有 18.08 笔交易。垂直灰色线代表 5 分钟网格。

然而,由于低信噪比,在个股层面揭示这些周期性可能很困难。在下一节中,我们开发了一个框架来系统地建模和估计日内交易活动中的周期性

📖 [逐步解释]

这部分是本节乃至整篇论文的核心动机所在。作者通过一个直观的图形化例子,提出了本文试图解决的关键问题:交易活动中存在着微弱但普遍的周期性信号,这些信号在单个股票层面被噪声淹没,但在市场总体层面清晰可见。如何有效提取和建模这些周期性信号?

  1. 熟知的日内模式 (U-shape):
  • 美国市场: 开盘(9:30)和收盘(16:00)时段交易最活跃,成交量最高;而盘中(午间)交易相对清淡,成交量最低。将一天的交易量画成图,形状像一个字母 "U",这被称为“U 型模式”。这是因为开盘时段要消化隔夜信息,收盘时段则有大量机构调仓和日内交易者平仓的需求。
  • 中国市场: 由于有午休(11:30-13:00),交易活动被分割成两段。上午盘和下午盘各自呈现一个小的 U 型模式,组合起来就像两个 U 并列,因此被称为“双 U 型模式”。
  1. 个股层面的观察 (图 1a, 1b):
  • 作者选取了 AAPL 和平安银行这两个代表性大盘股。
  • 图中的数据是“所有交易日平均后”的。这意味着,对于 AAPL 在 9:30:03 的那个点,其数值是 2019-2021 年所有 757 个交易日里,在 9:30:00-9:30:03 这个时间窗口成交笔数的平均值。
  • 发现1: 即使经过了多日平均,U 型(或双 U 型)的宏观轮廓清晰可见。
  • 发现2: 在宏观轮廓之上,时间序列曲线布满了密集的、看似随机的上下波动,作者称之为“充满了噪声”。这说明个股的交易活动即使在平均后,仍然具有很强的随机性和波动性。
  1. 市场总体(横截面平均)的观察 (图 1c, 1d):
  • 这里的“横截面平均”是关键。图 1c 的每个数据点,例如 9:30:03 的值,是 所有 492 只美国股票所有 757 个交易日 里,在 9:30:00-9:30:03 这个时间窗口成交笔数的总平均值。图 1d 同理。
  • 核心发现: 当进行了这种“跨股票、跨天”的双重平均后,神奇的事情发生了。原先在个股层面看似噪声的波动,现在呈现出惊人的规律性。
  • 降噪机制: 横截面平均(在同一时刻对多只股票求平均)起到了“降噪”的作用。每只股票特有的、随机的交易冲击(idiosyncratic noise)在平均过程中相互抵消了,而所有股票共同具有的、系统性的模式(systematic pattern)则被保留并加强了。
  • 周期性尖峰 (Spikes): 在平滑的 U 型背景上,出现了非常规律的“尖峰”。尤其在中国市场(图 1d),每到 5 分钟或 10 分钟的整数倍时刻(例如 9:35:00, 9:40:00, 9:45:00...),交易量会瞬间脉冲式地增高。这些时刻恰好与图中的垂直网格线对齐。美国市场(图 1c)也有类似现象,但不如中国市场明显。
  1. 提出核心问题:
  • 存在性: 简单的可视化分析已经证明,交易活动中存在重要的、高频的周期性。这些周期性可能与程序化交易、做市商策略或者交易者使用“定时订单”的习惯有关(例如,每 5 分钟执行一次的算法)。
  • 探测难度: 在个股层面,这些周期性信号非常微弱,被巨大的噪声所掩盖,信噪比 (Signal-to-Noise Ratio, SNR) 很低。直接对单只股票的时间序列进行分析,很难发现这些规律。
  • 研究目标: 因此,本文的核心任务就是开发一个强大的统计框架(即后续要介绍的谱分析模型),能够从高噪声的个股数据中,系统地、稳健地识别和估计出这些隐藏的周期性
  1. 图例解释: 图的标题下的小字是对图表的精确解释,也是一个极好的具体示例。
  • “平安银行在 13:30:03 的数值为 18.08”:这个点是图 1b 上的一个点。它的计算方法是:找出 2019-2021 年所有 730 个交易日,在每个交易日的 13:30:00 到 13:30:03 这 3 秒内,平安银行的成交笔数,然后将这 730 个数值加起来求平均,得到 18.08。
💡 [数值示例]
  • 示例1 (降噪机制): 假设在 9:35:00 这个时刻,有一个共同的“5分钟效应”信号,强度为 +2 (笔交易)。同时有三只股票 A, B, C。
  • 股票 A 的随机噪声是 +5
  • 股票 B 的随机噪声是 -3
  • 股票 C 的随机噪声是 -1
  • 观测到的各自的交易量变化 = 信号 + 噪声:
  • A: $2 + 5 = 7$
  • B: $2 - 3 = -1$
  • C: $2 - 1 = 1$
  • 在个股层面,我们看到的是 7, -1, 1 这些混杂着噪声的数字,规律不明显。
  • 但对它们求横截面平均:$(7 + (-1) + 1) / 3 = 7/3 \approx 2.33$。平均值非常接近原始信号强度 2。随着股票数量增加到成百上千只,随机噪声项的平均值会趋近于 0,留下的就是清晰的共同信号。这就是“横截面平均作为一种降噪机制”的原理。
  • 示例2 (信噪比): 假设在个股层面,周期性信号的振幅(signal strength)是 0.5 笔/3秒,而随机噪声的标准差(noise level)是 10 笔/3秒。那么信噪比大约是 $0.5 / 10 = 0.05$,这是一个非常低的值,意味着信号完全被噪声淹没。但是通过对 N=500 只股票求平均,信号强度不变(仍然是 0.5),但噪声的标准差会降低大约 $\sqrt{N}$ 倍,变为 $10 / \sqrt{500} \approx 0.45$。此时的信噪比提高到 $0.5 / 0.45 \approx 1.11$,信号就变得清晰可辨了。
⚠️ [易错点]
  1. 混淆“时间平均”和“横截面平均”: 图 1a/1b 只做了“跨天”的时间平均,这有助于消除某一天的特殊事件影响,但保留了个股自身的特性和噪声。图 1c/1d 在此基础上,又做了“跨股”的横截面平均,这是揭示共同模式的关键。
  2. 对“噪声”的理解: 这里的“噪声”不一定是错误数据,而是指那些非系统性的、个股特有的、难以预测的交易活动。它可能来自个别投资者的随机决策、针对某只股票的特定新闻等。
  3. 周期性的来源推断: 文中暗示周期性可能与程序化交易有关,但并未证实。这些尖峰的成因本身就是一个有趣的研究课题。例如,它们是来源于算法交易的“定时执行”切片,还是交易所在整数分钟时刻处理某些订单的方式不同?
  4. 跨市场比较的陷阱: 中国市场的周期性远比美国市场明显。这本身就是一个重要的发现。读者应避免草率地认为“美国市场没有周期性”,而是应该理解为“美国市场的周期性信号更弱或模式更复杂”。这可能与两国市场的交易者结构(散户 vs 机构)、监管规则、技术采纳程度等差异有关。

16 总结与展望

📝 [总结]

本节首先详细介绍了研究使用的数据集,涵盖了中美两个主要市场,时间跨度长,样本量巨大(约 $10^{10}$ 个数据点)。数据处理的核心步骤是将高频逐笔交易数据转换为 3 秒为间隔的时间序列,并定义了成交笔数、股数、额三种交易量指标。然后,通过一个直观的“动机实例”,文章展示了著名的日内交易量“U 型”模式,并揭示了一个更深层次的现象:在个股层面被噪声淹没的高频周期性(如 5 分钟、10 分钟的交易脉冲),在对整个市场进行横截面平均后清晰地显现出来。

🎯 [存在目的]

本节的核心目的有三个:

  1. 奠定基础 (Foundation):清晰地说明研究的数据来源、处理方法和基本设定,为后续所有分析提供事实依据和可复现性指引。
  2. 提出问题 (Motivation):通过一个引人入胜的例子,生动地展示研究要解决的核心问题——即如何从充满噪声的个股数据中,有效识别和量化普遍存在但十分微弱的高频周期性
  3. 引导方向 (Guidance):明确指出个股层面分析的困难(低信噪比),从而自然地引出下一节需要引入一个更强大、更专门的分析工具(即谱分析框架)的必要性。本节成功地制造了悬念,激发了读者对解决方案的好奇心。
🧠 [直觉心智模型]

可以将日内交易活动想象成一个庞大的交响乐团在演奏。

  1. 个股层面 (图 1a, 1b):就像你把一个麦克风只放在一个小提琴手旁边。你能听到这位琴手演奏的主旋律(U 型模式),但同时也会录到很多“噪声”:他弓弦摩擦的杂音、偶尔的错音、翻乐谱的声音等。这些声音让旋律显得杂乱无章。
  2. 横截面平均 (图 1c, 1d):就像你在指挥家的位置,能听到整个乐团所有乐器的声音。虽然每个乐手都有自己的小瑕疵(噪声),但当上百个乐器同时演奏时,这些随机的个人噪声会相互抵消。此时,隐藏在所有声部之中的、由作曲家精心设计的共同节拍和韵律(例如每隔 8 拍一次的鼓点,即文中的 5 分钟周期性)就会变得异常清晰和震撼。
  3. 本文的目标:开发一种超级听力设备(新的分析框架),即使只听单个小提琴手的录音,也能滤掉所有杂音,精确地识别出整个乐团共有的那个鼓点节拍。
💭 [直观想象]

想象一下你在海边观察沙滩上的波浪。

  1. 个股层面:你只盯着海滩上的一小块区域(一平方米)。你会看到潮水(U 型模式)有涨有落,但更多时候,你看到的是无数小浪花(噪声)毫无规律地拍打、碎裂、回流。从这一小块区域,你很难看出整个大海的规律。
  2. 横截面平均:你爬上一个高高的灯塔,俯瞰整片海滩。这时,个别浪花的随机性消失了。你看到的是一道道巨大而整齐的浪(共同的周期性信号),以固定的节奏(例如每分钟一次)向前推进,冲刷着整个海岸线。这种宏伟的规律性,是在地面上盯着一小块沙滩时完全无法感受到的。
  3. 本文的挑战:如何设计一个仪器,只需要测量那一小块沙滩的水位变化,就能精确地推算出远处大海传来的、整齐划一的巨浪的频率和强度。

2行间公式索引

1. 处理后的3秒时间序列数据的总样本量计算公式:

$$ \text{总样本} \approx 492(\text{股票}) \times 757(\text{天}) \times 7800 + 2081(\text{股票}) \times 730(\text{天}) \times 4740 $$

3最终检查清单

* 行间公式完整性:

* 源文件共 1 个行间公式:

$$ \text{总样本} \approx 492(\text{股票}) \times 757(\text{天}) \times 7800 + 2081(\text{股票}) \times 730(\text{天}) \times 4740 $$

* 解释文件共 1 个行间公式,并已在 行间公式索引 章节中被正确引用、解释和编号。

* 结果: 通过。

* 字数检查:

* 源文件字数: 约 1100 字。

* 解释文件字数: 约 5500 字,显著超过源文件字数。

* 结果: 通过。

* 段落结构映射检查:

* 源文件的标题和段落结构(数据来源、数据处理、指标定义、辅助特征、动机实例、图表及解释、总结等)均已在新标题体系 1.11.6 中得到准确、连续的映射和覆盖。所有原文内容均被包含和解释,无遗漏段落。

* 结果: 通过。

* 阅读友好检查:

* 全文使用了 [原文][逐步解释][公式与符号逐项拆解和推导][具体数值示例][易错点与边界情况][总结][存在目的][直觉心智模型][直观想象] 等结构化标签,层次分明,便于读者快速定位和理解。

* 关键术语(如 逐笔交易与报价记录, 周期性, 波动率, 信噪比)已加粗并给出详细解释。

* 提供了多个具体的数值示例(如交易量计算、降噪机制)和两个直观的想象模型(交响乐团、海浪),将抽象的金融概念具体化、形象化。

* 结果: 通过。

[[END_OF_RESPONSE]]所有解释内容已全部输出完毕。