From Fuzzy Rule-Based Models to Granular Models 深度结构解析

0. 名称消歧与论文来源确认

0.1 当前文档主要对应哪篇论文

当前这份文档主要对应的是：

Cui, E, Pedrycz, Li, Wang, IEEE Transactions on Fuzzy Systems 2025, From Fuzzy Rule-Based Models to Granular Models

本文默认讨论的 Fuzzy Rule-Based -> Granular Models，都指这篇论文提出的路线：

先从数值型 Takagi-Sugeno 规则模型出发；
再把数值 consequent 提升为区间、模糊集或概率粒；
最终得到带可信结构的 granular rule-based model。

0.2 它在阅读路线里的位置

如果把上一篇 Granular Computing for ML 看作“为什么需要粒化表达”的总纲，那么这篇做的就是：

把“粒化输出”真正落到一个可计算、可实验的规则模型上。

换句话说：

上一篇更像：granular computing -> why
这一篇更像：numeric TS model -> how to elevate to granular outputs

因此，这篇是 granular 主线中最适合拿来做 toy、最适合具体建模的一篇。

0.3 本文默认读者起点

下面会直接写公式，但不假设你已经熟悉：

TS 规则模型；
模糊激活度；
GP 回归；
granule equivalence。

所以第一次出现的核心公式我都会给完整写法，而不是只给口号。

0.5 最小问题设定与记号

0.5.1 数值 TS 模型：先把 baseline 写完整

设输入输出数据为 $$ \mathcal D=\{(x_k,\operatorname{target}_k)\}_{k=1}^N, \qquad x_k\in\mathbb R^n. $$

传统常值 consequent 的 TS 规则写成 $$ \text{Rule }i:\quad \text{If }x\text{ is }A_i,\ \text{then }y_i=b_i, \qquad i=1,\dots,c. $$

这里：

$A_i$ 是第 $i$ 条规则的前件模糊集合；
$b_i$ 是第 $i$ 条规则的数值 consequent；
$c$ 是规则数。

若第 $i$ 条规则在输入 $x$ 上的原始激活强度记为 $$ w_i(x), $$ 最常见的一种写法是 $$ w_i(x)=\prod_{d=1}^n \mu_{A_{id}}(x^{(d)}), $$ 其中：

$x^{(d)}$ 是输入向量的第 $d$ 维；
$\mu_{A_{id}}$ 是第 $i$ 条规则、第 $d$ 个前件的隶属函数。

把它归一化后得到 $$ \bar w_i(x)=\frac{w_i(x)}{\sum_{r=1}^c w_r(x)}. $$

为了后文简洁，本文把归一化激活度记成 $$ A_i(x):=\bar w_i(x). $$

于是最标准的数值 TS 输出写成 $$ \hat y(x)=\sum_{i=1}^c A_i(x)b_i. $$

这一步一定要看清：
后面所有 granular 升级，都是在这个数值 baseline 上做的，而不是凭空换模型。

0.5.2 从数值 consequent 到 granular consequent

这篇论文的核心就是把 $$ b_i $$ 升级成信息粒 $$ B_i. $$

于是规则变成 $$ \text{Rule }i:\quad \text{If }x\text{ is }A_i,\ \text{then }y_i=B_i, \qquad i=1,\dots,c. $$

此时：

若 $B_i=[\ell b_i,u b_i]$，则 consequent 是区间；
若 $B_i$ 是三角模糊集，则 consequent 是模糊粒；
若输出来自 GP，则可以先得到概率粒，再转区间或模糊集。

也就是说，这篇论文改造的不是“规则前件”，而主要是“规则结论的类型”。

0.5.3 区间输出怎样聚合

若 consequent 是区间 $$ B_i=[\ell b_i,u b_i], $$ 则对样本 $x_k$，聚合后的区间输出定义为 $$ Y_k=\sum_{i=1}^c A_i(x_k)B_i = \sum_{i=1}^c A_i(x_k)[\ell b_i,u b_i]. $$

也就是 $$ Y_k=[y_k^L,y_k^R], $$ 其中 $$ y_k^L=\sum_{i=1}^c A_i(x_k)\ell b_i, \qquad y_k^R=\sum_{i=1}^c A_i(x_k)u b_i. $$

这个公式很重要，因为它说明：

原来聚合的是标量 $b_i$；
现在聚合的是每条规则的上下界。

0.5.4 三角模糊 consequent 怎样写

若第 $i$ 条 consequent 是三角模糊集，记为 $$ B_i=T_i(y;\ell b_i,b_i,u b_i), $$ 它的隶属函数可写成 $$ T_i(y) = \max\left( 0, \min\left\{ \frac{y-\ell b_i}{b_i-\ell b_i}, \frac{u b_i-y}{u b_i-b_i} \right\} \right). $$

聚合后，对样本 $x_k$ 的三角模糊输出仍可用三元组表示： $$ Y_k=T(y;y_k^L,y_k^M,y_k^R), $$ 其中 $$ y_k^L=\sum_{i=1}^c A_i(x_k)\ell b_i, \qquad y_k^M=\sum_{i=1}^c A_i(x_k)b_i, \qquad y_k^R=\sum_{i=1}^c A_i(x_k)u b_i. $$

0.5.5 consequent granule 怎么构造

对第 $i$ 条规则，作者把样本目标值按照规则激活度加权，形成 $$ (\operatorname{target}_k,\omega_k), \qquad \omega_k=A_i(x_k). $$

然后用 principle of justifiable granularity 在这些加权数据上构造 $B_i$。

如果 consequent 用区间表示，那么 lower bound 和 upper bound 可以理解成分别独立优化。
例如，对下界 $\ell$，可以写一个最小版本： $$ \operatorname{cov}_i^{L}(\ell) = \frac{1}{N} \sum_{k:\ \ell\le \operatorname{target}_k\le b_i}\omega_k, $$ 以及 $$ \operatorname{sp}_i^{L}(\ell) = 1-\frac{b_i-\ell}{r_i^L}, $$ 其中 $$ r_i^L = b_i-\min\{\operatorname{target}_k:\omega_k>0\}. $$ 于是下界通过 $$ \ell b_i = \arg\max_{\ell\le b_i} \operatorname{cov}_i^{L}(\ell)\operatorname{sp}_i^{L}(\ell) $$ 来确定。

对上界 $u$ 同理。先写 $$ \operatorname{cov}_i^{U}(u) = \frac{1}{N} \sum_{k:\ b_i\le \operatorname{target}_k\le u}\omega_k, $$ 以及 $$ \operatorname{sp}_i^{U}(u) = 1-\frac{u-b_i}{r_i^U}, $$ 其中 $$ r_i^U = \max\{\operatorname{target}_k:\omega_k>0\}-b_i. $$ 然后 $$ u b_i = \arg\max_{u\ge b_i} \operatorname{cov}_i^{U}(u)\operatorname{sp}_i^{U}(u) $$ 得到上界。

所以每条规则的 granular consequent 都不是拍脑袋设定的，而是通过：

coverage；
specificity；
二者乘积 $$ V=\operatorname{cov}\cdot\operatorname{sp} $$

来决定宽度与形状。

0.5.6 GP 分支扮演什么角色

作者还给出另一条概率粒化路径。

先把 prototype 对 $$ (v_i,b_i),\qquad i=1,\dots,c $$ 看作观测点，再由 GP 输出 $$ Y\mid x \sim \mathcal N(m(x),\sigma(x)^2). $$

更具体地， $$ m(x_\ast)=k(x_\ast,X)K^{-1}b, $$ 以及 $$ \sigma^2(x_\ast)=k(x_\ast,x_\ast)-k(x_\ast,X)K^{-1}k(X,x_\ast), $$ 其中：

$X=(v_1,\dots,v_c)$；
$b=(b_1,\dots,b_c)^\top$；
$K=[k(v_i,v_j)]_{i,j=1}^c$。

这相当于先得到概率信息粒，再借助 justifiable granularity 把它转换成：

区间粒；
三角模糊粒。

论文中给出了一个很实用的换算结果：

interval 粒的最优 spread 约为 $$ d=1.15715\,\sigma; $$
triangular fuzzy 粒的最优 spread 约为 $$ d=1.64395\,\sigma. $$

0.5.7 granular equivalence 是什么

这篇论文还有一个关键概念：granular equivalence。

它的最小表达式可以写成 $$ \operatorname{cov}(A)\operatorname{sp}(A) = \operatorname{cov}(B)\operatorname{sp}(B). $$

意思是：如果两个不同 formalism 的信息粒 $A,B$ 在“覆盖 + 特异性”的意义下等价，那么它们可以被看成表达了近似同样的语义。

例如：

interval 可以转 triangular fuzzy set；
Gaussian probabilistic granule 也可以转 interval / fuzzy granule。

0.5.8 一个 1D 最小例子

假设只有两条规则： $$ \text{Rule 1: If }x\text{ is left, then }y_1=b_1, $$ $$ \text{Rule 2: If }x\text{ is right, then }y_2=b_2. $$

普通 TS 模型只输出 $$ \hat y(x)=A_1(x)b_1+A_2(x)b_2. $$

现在把它升级成区间 consequent： $$ B_1=[\ell b_1,u b_1],\qquad B_2=[\ell b_2,u b_2]. $$

那么输出就变成 $$ Y(x)= \left[ A_1(x)\ell b_1+A_2(x)\ell b_2,\quad A_1(x)u b_1+A_2(x)u b_2 \right]. $$

这一步就是全文最核心的结构变化。

1. 论文想解决的核心问题

1.1 直觉问题

这篇论文的出发点很直接：

数值规则模型输出一个点值，看起来精确，但这种精确经常是幻觉。

尤其在这些场景中，点值会显得不够：

数据稀疏；
噪声较大；
局部规则不稳定；
输出本身应该带可信范围。

1.2 为什么偏偏从 TS 模型开始

作者没有直接从大型神经网络开始，而是从 TS rule-based model 开始，有两个原因：

TS 模型本来就是数值映射，结构清楚；
一旦 consequent 从标量提升成信息粒，模型升级路径非常直观。

因此它特别适合作为“从 numeric 到 granular”的教学样板。

2. 论文中的关键图

2.1 Figure 1：从 numeric model 到 granular model 的主路线

这篇最值得盯住的是 Figure 1。

From numeric to granular modeling

这张图把全文的路线压成了非常清楚的一条链：

先有一个数值 TS 模型；
然后做 type elevation；
再分成两条 granular 路： - G-TS：区间 / 模糊 consequent； - P-TS：概率 consequent；
最后讨论不同信息粒之间的 granular equivalence。

2.2 这张图为什么重要

因为它说明这篇论文真正研究的不是“再造一种规则系统”，而是：

如何把既有数值规则模型的输出层升级成带可信结构的表达层。

这也是你后面自己做 toy 时最该继承的思想。

3. 这篇最核心的机制

3.1 mechanism 1：用 justifiable granularity 构造每条规则的 consequent

对每条规则，作者都不是直接指定一个宽区间或模糊集，而是：

先收集该规则支持的目标值；
再根据规则激活度给这些目标值加权；
最后在 coverage 与 specificity 的权衡下确定 consequent granule。

这意味着区间宽度不是固定噪声条，而是规则局部数据结构决定的。

3.2 mechanism 2：从 numeric TS 到 granular TS

这一步可以概括成：

原模型输出一个 $b_i$；
新模型输出一个 $B_i$；
聚合时不再只聚合标量，而是聚合信息粒。

因此输出对象被整体换型了。

3.3 mechanism 3：从 prototype 到 GP-based probabilistic granules

作者还提出另一条路线：

先得到数值 prototype $(v_i,b_i)$；
再用 GP 对新输入生成高斯输出；
再把高斯粒转换成 interval 或 fuzzy 粒。

这条路线的优点是：

输出天然带不确定性；
粒宽可以随输入位置而变；
数据密集区与稀疏区会给出不同粒度。

3.4 mechanism 4：granular equivalence

这篇一个很有意思但容易被忽略的点是：

不同 formalism 的粒并不是彼此孤立的，可以通过 justifiable granularity 的准则建立等价关系。

例如：

interval 可以转换成 trapezoidal / triangular fuzzy set；
Gaussian probabilistic granule 也可以转换成 interval / fuzzy granule。

这意味着：

粒的“形状”不是唯一的；
关键是它在 coverage 与 specificity 意义下是否保留了相近语义。

4. 它到底在优化什么、评价什么

4.1 数值层面仍然看 RMSE

论文并没有抛弃传统数值评价。

在 numeric level 上，仍然用：

RMSE；
训练/测试拟合表现。

这说明作者不是否定数值精度，而是反对“只剩数值精度”。

4.2 粒化层面看 $V=\operatorname{cov}\cdot\operatorname{sp}$

在 granular level 上，关键指标变成 $$ V=\operatorname{cov}\cdot\operatorname{sp}. $$

它压缩了两个要求：

粒要能覆盖支持它的数据；
粒又不能宽得失去语义。

这也是这篇论文和普通 prediction interval 工作很不一样的地方。

4.3 规则数增加会带来什么

论文观察到一个很稳定的趋势：

规则数增加时，模型能刻画更细结构；
consequent granule 的 specificity 往往提高；
对应的 $V$ 往往也上升。

但这并不意味着规则永远越多越好，因为规则过多仍会带来：

复杂度上升；
过拟合风险；
可解释性下降。

4.4 GP 参数为什么用 RMSE 而不是 NLL

文中一个很实用的实验细节是：

GP 核参数既可以用 NLL 优化；
也可以直接用 RMSE 优化；
作者实验发现 RMSE 往往给出更准确的数值预测。

这说明在这里 GP 并不是纯粹做贝叶斯建模，而是在 granular pipeline 里承担“生成概率粒”的工程角色。

5. 它和前后论文的关系

5.1 和上一篇 `Granular Computing for ML` 的关系

上一篇回答的是：

为什么需要粒化表达；
为什么可信输出重要；
为什么要谈 knowledge-data ML。

这一篇回答的是：

具体怎样把 numeric rule-based model 改造成 granular model。

因此它是从“思想框架”走向“模型结构”的关键一步。

5.2 和下一篇 `Knowledge Landmarks` 的关系

这一篇的重点仍然在：

模型输出层的粒化；
consequent granule 的设计；
概率粒与模糊粒转换。

而 Knowledge Landmarks 会进一步走向：

知识本身也是粒；
数据是局部的；
知识是全局的；
两者通过 regularizer 联合训练。

所以两篇的差别可以压成一句话：

这篇更偏 granular output
下一篇更偏 granular knowledge regularization

6. 这篇对你最有价值的地方

6.1 它把“输出设计”变成显式课题

这篇会迫使人从默认设定里跳出来：

预测不是天然只能输出一个数，输出形式本身就是模型设计自由度。

6.2 它很适合做最小 toy

相比很多更抽象的 granular 论文，这篇尤其适合 toy reproduction，因为它的结构很清楚：

先做 numeric TS baseline；
再把 consequent 变成 interval；
然后升级成 fuzzy / probabilistic；
最后比较 coverage、specificity 与 RMSE。

6.3 它天然适合和你前面的逻辑线做连接

一旦你接受“输出可以是粒”，就会自然想到：

能不能让 interval output 同时满足某些逻辑边界？
能不能让 fuzzy output 服从领域 monotonicity？
能不能把规则可信度本身也粒化？

这就是它对后续研究最有启发的地方。

7. 计算代价与局限性

7.1 它仍依赖先有一个不错的 numeric model

这篇的基本套路是“先 numeric，再 type elevation”。
因此如果原始 numeric TS 模型本身就不稳，后面的 granular augmentation 也会受影响。

7.2 coverage / specificity 的定义带有设计选择

虽然 PJG 给了统一原则，但：

具体 coverage 怎样算；
specificity 用什么函数；
粒 formalism 怎样选；

都仍包含建模选择。

7.3 GP 分支在高维数据上未必占优

论文也明确指出：

GP 在低维时很灵活；
但在高维空间，核距离行为会变差，效果未必稳定。

因此 P-TS 不是无脑优于 rule-based granular model。

7.4 它主要强调“可信结构”，不是“绝对最优预测”

如果只把这篇当纯精度竞赛论文来读，会误解它。
它真正关心的是：

输出是否携带可解释可信度；
粒化结果是否比点值更诚实；
granular model 是否更贴近应用场景。

8. 最小复现建议

8.1 最适合先做什么

最稳的起步不是完整复现论文，而是做一个极简版 granular TS toy：

1D 回归；
2 到 5 条局部规则；
numeric consequent 与 interval consequent 对照。

8.2 一条最稳的最小路径

用几个 prototype 做局部加权回归。
得到 numeric consequent $b_i$。
对每条规则收集其加权目标值。
用简化版 PJG 构造 $[\ell b_i,u b_i]$。
聚合成 interval output。
比较 RMSE、coverage、interval width。

8.3 后续最值得做的两个对照

numeric TS vs interval G-TS
interval G-TS vs GP-based probabilistic granules

如果还想再往前走一步，可以做：

interval output + monotonicity constraint

这会自然把它接回 informed ML 主线。

9. 一页压缩总结

如果只保留最关键的几句话，那么这篇论文的骨架就是：

从常规数值 TS 规则模型出发： $$ \text{If }x\text{ is }A_i,\ \text{then }y_i=b_i. $$
把 consequent 从标量 $b_i$ 提升成信息粒 $B_i$： $$ \text{If }x\text{ is }A_i,\ \text{then }y_i=B_i. $$
用 justifiable granularity 在 coverage 与 specificity 平衡下构造 $B_i$。
再通过 G-TS 或 P-TS 产生区间、模糊集或概率粒输出。

所以它真正解决的是：

如何把原本只会输出数值的规则模型，升级成能同时表达结果与可信结构的 granular model。

而它真正付出的代价是：

输出一旦从点值变成信息粒，consequent 构造、粒度评价、模型比较和高维扩展都会更复杂。