0. 名称消歧与论文来源确认
0.1 当前文档主要对应哪篇论文
当前这份文档主要对应的是:
- Pedrycz, IEEE Transactions on Cybernetics 2025, Granular Computing for Machine Learning: Pursuing New Development Horizons
本文默认讨论的 Granular Computing for ML,都指这篇论文提出的那套总体视角:
- 不再只问模型“准不准”;
- 还要问模型输出是否具有合适的抽象层次、可信度和可解释性;
- 并进一步问知识与数据能否在统一的 granular 框架中协同工作。
0.2 它在阅读路线里的位置
如果把 Survey -> Logic-Net -> Semantic Loss -> DL2 看成“逻辑约束主线”,那么这篇论文开启的是另一条主线:
即使模型满足约束,它给出的结果是否仍然过于尖锐、过于精确、过于缺少可信结构?
换句话说:
- Logic 线主要关心
constraint satisfaction - Granular 线则开始关心
credibility / abstraction / uncertainty-aware representation
因此,这篇论文不是去替代 Logic-Net、Semantic Loss 或 DL2,而是在 informed ML 框架内把问题空间扩宽:
- 从“规则有没有被满足”
- 扩展到“结果是否以合适粒度表达”
- 再扩展到“知识和数据是否能在同一设计环境里协同出现”
0.3 本文默认读者起点
下面的写法默认你可以接受数学公式,但不预设你已经懂下面这些词:
- 信息粒
information granule - 粒度
granularity - 模糊集
fuzzy set - 高斯过程
Gaussian process, GP
因此所有后续核心符号都会在第一次出现时定义,不要求你先查外部资料。
0.5 最小概念设定与记号
这一节只做一件事:把全文后面会反复出现的最小数学骨架一次说明白。
0.5.1 最简单的监督学习设定
设有训练数据 $$ \mathcal D=\{(x_k,y_k)\}_{k=1}^N, $$ 其中:
- $x_k$ 是输入;
- $y_k$ 是输出;
- $N$ 是样本数。
一个普通的数值模型写成 $$ \hat y=M(x;a), $$ 其中:
- $a$ 是模型参数;
- $\hat y$ 是模型对输入 $x$ 的数值预测。
如果只停留在传统数值学习里,我们最终得到的是一个点值 $\hat y$。
这篇论文想追问的是:
这个点值是否应该被提升为更有可信结构的对象?
0.5.2 什么叫“信息粒”
作者把一个由数据支持、但处于某种抽象层次上的表示统一称为信息粒 $$ A. $$
它不是一个固定公式,而是一类对象。最常见的几种是:
-
区间粒 $$ A=[a,b] $$ 表示“结果大致落在这个范围里”。
-
模糊粒 用隶属函数 $$ \mu_A(y)\in[0,1] $$ 表示元素 $y$ 属于概念 $A$ 的程度。
-
概率粒 用概率分布表示,例如 $$ Y\sim\mathcal N(m,\sigma^2). $$
-
rough set、shadowed set、更高阶粒 这些也是信息粒,但本文只需要先抓住前 3 种即可。
你可以把“信息粒”先理解成:
不是只给一个点,而是给一个带结构的结果对象。
0.5.3 coverage 与 specificity:为什么“范围大”不一定更好
对最简单的一维区间粒 $$ A=[a,b], $$ 作者强调要同时看两个量。
第一,coverage。
它衡量数据有多大程度被这个粒覆盖。最简单的区间版可以写成
$$
\operatorname{cov}(A)
=
\frac{1}{N}\sum_{k=1}^N \mathbf 1[y_k\in[a,b]],
$$
其中 $\mathbf 1[\cdot]$ 是指示函数:
- 条件成立时取 1;
- 条件不成立时取 0。
第二,specificity。
它衡量这个粒有多“尖锐”、多“不发散”。最简单的区间版可以写成
$$
\operatorname{sp}(A)=1-\frac{b-a}{y_{\max}-y_{\min}},
$$
其中
$$
y_{\max}=\max_k y_k,
\qquad
y_{\min}=\min_k y_k.
$$
于是立刻能看出冲突:
- 区间越宽,coverage 往往越高;
- 但区间越宽,specificity 往往越低。
所以一个“好粒”不是越大越好,也不是越小越好。
0.5.4 Principle of Justifiable Granularity: 先覆盖,再别太宽
作者把上面的平衡原则称为 principle of justifiable granularity, PJG。
压成最小优化式,就是
$$
A^\star
=
\arg\max_A \operatorname{cov}(A)\operatorname{sp}(A).
$$
它的含义非常直接:
- 先要求这个粒确实被数据支持;
- 再要求它不要宽到失去语义。
对模糊集,作者同样使用“覆盖 + 特异性”的思路。
最小写法可以记成
$$
\operatorname{cov}(A)=\frac{1}{N}\sum_{k=1}^N \mu_A(y_k),
$$
以及
$$
\operatorname{sp}(A)=\int_0^1 \operatorname{sp}(A_\alpha)\,d\alpha,
$$
其中 $A_\alpha$ 是模糊集的 $\alpha$-cut。若把 $A_\alpha$ 看成一个区间,那么最自然的写法就是
$$
\operatorname{sp}(A_\alpha)
=
1-\frac{|A_\alpha|}{y_{\max}-y_{\min}},
$$
其中 $|A_\alpha|$ 表示该区间长度。
如果你目前还不熟 $\alpha$-cut,也只要先记住一句话:
对模糊集,specificity 仍然在衡量“这个概念边界到底有多散”。
0.5.5 从数值模型到粒化模型
设一个普通数值模型为 $$ M(x;a). $$
这篇论文讨论的关键不是重新发明某个具体网络,而是讨论怎样把模型中原本“纯数值”的对象提升为粒化对象。最典型的三种入口是:
- 输入侧粒化 $$ M(G(x,\delta);a) $$
- 参数侧粒化 $$ M(x;G(a,\varepsilon)) $$
- 输入与参数同时粒化 $$ M(G(x,\delta);G(a,\varepsilon)) $$
这里:
- $G$ 表示把数值对象提升为信息粒的映射;
- $\delta,\varepsilon$ 表示粒度超参数。
如果只看最简单的区间嵌入,一个数值参数 $a_j$ 可以被提升为 $$ G(a_j,\varepsilon) = \left[ \min\{a_j(1-\varepsilon),a_j(1+\varepsilon)\}, \max\{a_j(1-\varepsilon),a_j(1+\varepsilon)\} \right]. $$
于是参数不再是单点,而变成了一个小范围。
0.5.6 Gaussian process 在这里扮演什么角色
作者还把 GP 看成一种天然输出概率粒的模型。
给定训练输入矩阵 $X=(x_1,\dots,x_N)$ 和输出向量 $y=(y_1,\dots,y_N)^\top$,对新输入 $x_\ast$,GP 给出 $$ Y_\ast\mid x_\ast,\mathcal D \sim \mathcal N(m(x_\ast),\sigma^2(x_\ast)), $$ 其中 $$ m(x_\ast)=k(x_\ast,X)K^{-1}y, $$ 以及 $$ \sigma^2(x_\ast)=k(x_\ast,x_\ast)-k(x_\ast,X)K^{-1}k(X,x_\ast). $$
这里:
- $k(\cdot,\cdot)$ 是核函数;
- $K=[k(x_i,x_j)]_{i,j=1}^N$ 是核矩阵;
- $m(x_\ast)$ 是预测中心;
- $\sigma(x_\ast)$ 描述输出粒度。
所以 GP 天然给出的不是一个点,而是一整个高斯分布。
这正好符合 granular computing 所强调的“结果应带可信结构”。
0.5.7 一个最小 toy 例子
假设你做房价预测。
- 普通模型说:这套房值
300 万; - 区间粒模型说:这套房大致值 $$ [280,320]\text{ 万}; $$
- 概率粒模型说: $$ Y\sim\mathcal N(300,15^2). $$
这三种说法的区别不是“谁更复杂”,而是:
- 第一个只给点;
- 第二个给范围;
- 第三个给范围外,还给不确定性形状。
这就是这篇论文最想推动的视角变化。
1. 论文想解决的核心问题
1.1 直觉问题
这篇论文真正想指出的是一个经常被忽视的问题:
模型输出一个很精确的数,并不自动意味着这个数值得信任。
很多机器学习论文默认把输出写成点值,再用误差评价这个点值是否接近真值。
但作者认为,现实任务里很多时候真正需要的是:
- 结果范围;
- 结果置信程度;
- 结果所在抽象层次;
- 数据与知识之间的协同表达。
1.2 为什么前面的逻辑论文还不够
前面的逻辑论文主要回答的是:
- 如何注入规则;
- 如何满足约束;
- 如何把逻辑转成 loss 或可行域。
但它们默认的结果形式,大多仍然是:
- 分类分布;
- 数值输出;
- 或对固定输出空间的结构约束。
这篇论文再往前追问一步:
即使输出满足规则,它是否仍然假装自己“知道得很精确”?
这就是 granular computing 与纯逻辑约束线最本质的分界点。
2. 论文里的两条关键线索
2.1 第一条线索:为什么 granular computing 现在值得进入 ML
论文开头最重要的信息不是某个公式,而是问题转向。

作者明确把 granular computing 与下面这些挑战连起来:
- privacy
- security
- interpretability
- explainability
- confidence / credibility
- computational sustainability
这意味着作者不是把 granular computing 当成一个局部技巧,而是把它当成 ML 未来设计语言的一部分。
2.2 第二条线索:从 data-driven ML 到 knowledge-data ML
这篇论文另一个关键推进是:
粒化不只是一种输出形式,也是一种把知识和数据放进统一设计环境的方法。
作者多次强调:
- granular embedding;
- knowledge-data environment;
- additive loss functions;
- data-level 与 model-level 的知识整合。
也就是说,这篇论文的 ambition 不是“把区间加到输出上”,而是:
把 ML 从纯数值映射,扩展为一个在不同抽象层次上处理数据、知识和结果可信度的系统。
3. 这篇最核心的概念
3.1 information granule
信息粒的本质不是“模糊一点的数据”,而是:
用更抽象、但仍保有语义的对象去概括若干具体数值或现象。
例如:
- 区间强调范围;
- 模糊集强调渐变隶属;
- 概率粒强调统计不确定性;
- rough set 强调边界与近似。
3.2 information granularity
粒度不是越高越好,也不是越低越好。
- 太细:接近原始数值,缺少抽象收益;
- 太粗:信息被抹平,失去判别能力;
- 合适粒度:既保留主要结构,又不过度虚假精确。
因此粒度本身就是被设计、被优化、被比较的对象。
3.3 principle of justifiable granularity
这篇论文里最重要的方法论不是某个特定网络,而是 PJG:
用 coverage 与 specificity 的平衡来决定一个粒应有多宽、多模糊、多抽象。
它的重要性在于:
- 它给了粒构造一个统一标准;
- 它允许不同类型粒之间比较;
- 它给“可信范围”提供了比拍脑袋更系统的生成原则。
3.4 type elevation
作者反复强调一个现象:
numeric data 可以被看成 type-0 granules,而模型的结果往往应该提升到 type-1 甚至更高层次的粒。
换句话说:
- 训练数据可以是点;
- 但输出不必仍然是点;
- 更高层次的任务常常需要更高阶的信息粒。
这一步把“结果表达形式”从一个默认不变的接口,变成了一个可以被研究和设计的对象。
3.5 granular embedding
granular embedding 是这篇论文最值得记住的工程关键词之一。
它的含义不是单一算法,而是统一接口:
- 在输入上嵌入粒度;
- 在参数上嵌入粒度;
- 在输出上产生粒化结果;
- 再把这些粒度对象统一纳入优化与解释。
4. 它到底怎样推进 informed ML
4.1 从“满足约束”推进到“可信表达”
如果说 Logic-Net、Semantic Loss、DL2 更偏:
- “知识怎样限制模型”
那么这篇更偏:
- “知识怎样改变模型表达结果的形态”
这是一种很重要的视角转换。
4.2 从单纯点预测推进到非点值结果
论文强调:
- 区间结果可以表达范围;
- 模糊结果可以表达渐进边界;
- 概率粒可以表达不确定性密度。
这意味着模型质量不再只由 RMSE 或 accuracy 决定,而是还包括:
- 输出 granule 是否合理;
- granule 是否既覆盖数据又不过宽;
- granule 是否具有可解释的语义。
4.3 从 data-only ML 推进到 knowledge-data ML
文中还给出了一个很值得记住的总判断:
data 与 knowledge 应该在统一设计环境中协同,而不是知识只做后处理补丁。
这就把 granular computing 直接接到了 informed ML 的主轴上。
5. 这篇论文最值得抓住的收获
5.1 输出形式本身就是研究对象
很多人默认“模型输出一个数”是固定设定。
这篇论文会迫使你意识到:
输出是否该是一个数,其实也是模型设计选择。
5.2 不确定性不只是误差条,而是结构化表达
作者不是简单给点预测加一个 post-hoc 误差条,而是在强调:
- 区间;
- 模糊集;
- 概率粒;
都可以成为模型原生结果的一部分。
5.3 粒化不是退步,而是更贴近真实场景
表面上看,从点值退到区间似乎像“变差了”。
但这篇论文的主张恰好相反:
当系统本身就具有情景变化、参数不确定和知识抽象性时,粒化结果往往比尖锐点值更诚实。
6. 它和 Logic-Net、Semantic Loss、DL2 的本质差别
6.1 关注对象不同
- Logic-Net:规则怎样注入训练;
- Semantic Loss:逻辑怎样直接变成 loss;
- DL2:约束怎样变成统一可训练/可查询系统;
- Granular Computing for ML:模型结果怎样以合适粒度、可信形式表达。
6.2 知识形态不同
前面三篇更自然地处理:
- 逻辑规则;
- 离散结构;
- 声明式约束。
这篇更自然地处理:
- 区间知识;
- 模糊知识;
- 概率粒;
- 抽象层次变化。
6.3 优化目标也不同
前面三篇的关键通常是:
- constraint violation;
- feasible set;
- teacher projection;
- semantic probability mass。
而这篇更重视:
- granule quality;
- coverage / specificity trade-off;
- data-knowledge 协同;
- credibility-aware outputs。
7. 计算代价与局限性
7.1 它更像研究议程,而不是开箱即用算法
这是这篇论文的最大优点,也是最大局限:
- 优点:视野大、框架强、能打开后续研究空间;
- 局限:它本身不是一套拿来就能直接完整复现的标准算法包。
7.2 granularity 设计并不免费
一旦输出变成粒化对象,就要额外设计:
- 粒的 formalism;
- coverage / specificity 指标;
- 粒度超参数;
- 粒化对象之间的距离或匹配度。
这比单纯点预测复杂不少。
7.3 粒化结果更诚实,但也更难统一评价
点预测很容易比较:
- RMSE;
- accuracy;
- F1。
而粒化结果需要同时比较:
- 是否覆盖得足够;
- 是否又过宽;
- 是否语义合理;
- 是否便于后续决策使用。
因此评价体系本身就更复杂。
8. 它和后续两篇 granular 笔记的关系
8.1 对 From Fuzzy Rule-Based Models to Granular Models
这篇给的是总思想:
- 为什么需要从数值输出升级到粒化输出;
- 为什么要谈 justifiable granularity;
- 为什么要谈 credibility。
下一篇做的是:
- 把这些原则真正落实到 TS rule-based model 上。
8.2 对 Knowledge Landmarks
这篇已经提出 knowledge-data ML 的大框架想法。
再往后,Knowledge Landmarks 则真正把:
- 局部数据;
- 全局抽象知识;
- 粒化 regularizer;
组合成一个统一训练目标。
9. 最小复现建议
9.1 最适合先做什么
最适合先做的不是完整复现这篇,而是做一个最小粒化输出 toy:
- baseline:输出单点预测;
- granular 版:输出区间预测;
- 再比较 coverage 与 interval width。
9.2 一条最稳的最小路径
- 先做一个 1D 或 2D 回归任务。
- 训练普通 MLP 得到点预测。
- 给输出端加上下界和上界,形成 interval output。
- 用简单版 $$ \text{coverage} \times \text{specificity} $$ 作为粒质量指标。
- 看粒化输出能否更诚实地表达数据稀疏区的不确定性。
9.3 后续最值得做的两个延展
- 把 interval 输出升级成 fuzzy output。
- 把粒化输出与前面的逻辑约束 loss 结合起来。
10. 一页压缩总结
如果只保留最关键的几句话,那么这篇论文的骨架就是:
- 机器学习不该只优化点值准确率。
- 模型输出应当允许以信息粒形式表达可信范围、抽象层次和不确定性。
- 信息粒的构造要由
coverage + specificity的平衡来支撑。 - granular embedding 可以把粒度引入输入、参数、输出和知识-数据协同设计环境。
所以它真正解决的是:
如何把机器学习从“只输出一个看起来很准的数”,推进到“输出具有可信结构、可解释粒度并能和知识协同的结果”。
而它真正付出的代价是:
结果表达一旦粒化,模型设计、优化目标和评价指标都会明显更复杂。