火车头采集常用的纯正则过滤

约 480 字大约 2 分钟

2025-07-31

数据处理

\<header>[\s\S]*?\</header>|\<!--.*?-->| |&.*?;
替换为空

如果发布到一些免费平台，有的HTML特殊字符并不会被转化，只需在末尾加入'|&.*?;'过滤掉最后特殊HTML字符即可。

(?i)\<(?!/?h|/?p|/?div|/?br|/?img|/?strong).*?> 替换为 空

只保留标题标签 h 分段标签 p、div、br 以及图像标签 img ;前面的(?i)表示不区分大小写，想保留哪个标签，则只增加哪个标签

\<(/?h[1,5]).*?>  替换为 \<$1>
\<(/?strong).*?>  替换为 \<$1>
\<(/?p|/?div).*?>  替换为 \<p>

\<img.*?src="(.+?)".*?> 替换为 \<img src="$1">

\</?(p|br).*?>替换为\</p>\<p>

慧聪网段落只有开始没有结束

某些站个别文章,结束后没有开始就直接是下个段落的内容

\s*(\<\/?p>)\s* 替换为 $1

(\<p>){2,}|(\</p>){2,} 替换为 $1$2

\<p>\</p> 替换为 空

^\</p>|\<p>$ 替换为 空

[a-zA-Z]

(\d{2,100})

更新: 2024-04-03 15:46:40
原文: <https://www.yuque.com/seoers/usmmz7/znzftl7w1flvx9r8>