医药内容生成流程

约 945 字大约 3 分钟

2025-07-31

采集数据说明

资讯

字段	字段含义	字段说明
id	数据id	用于问题回溯查找源
Title	标题
Description	描述
Body	正文
Keywords	数据源关键词	可以合并使用
tagkey	匹配关键词库的词
Keshi	数据源分类	可以合并参考要录入的分类
class	匹配我们的分类
Ctime	采集源发布时间	可以按采集源发布时间，查找问题特征，按时间过滤
Time	采集时间
Len	文章字数	过滤字数少，空内容
Pageurl	采集源地址	回溯问题，查找特征
Jibing	采集源疾病
Dise	匹配库疾病
Durg	匹配库药品

问答

字段	字段含义	字段说明
id	数据id	用于问题回溯查找源
Title	标题
question	问题描述
answer	回答
Keywords	采集源关键词	可以合并使用
tagkey	匹配库关键词
Keshi	采集源分类	可以合并参考要录入的分类
class	匹配库分类
Ctime	采集源发布时间	可以按采集源发布时间，查找问题特征，按时间过滤
Time	采集时间
Len	字数	过滤字数少，空内容
Pageurl	采集源地址	回溯问题，查找特征
Jibing	采集源疾病	可以合并使用
Dise	匹配库疾病
Durg	匹配库药品
xingbie	性别
nianling	年龄

整理过滤原则及流程

限定医药相关内容：
1. 通过医药相关关键词限定
2. 通过采集源特征限定，如采集源指定采集的医药相关分类的内容
过滤内容
1. 数据查重：根据正文or回答内容进行数据查重，过滤掉重复内容。
2. 标题过滤原则：
  1. 字数＞5，标题无乱码
  2. 5<字数<24，之间可以使用批量标题处理。
  3. 标记重复标题
3. 正文&回答过滤原则：
  1. 正文&回答＞50，无乱码
  2. 正文过滤采集源版权信息，个人版权信息，电话，网站，联系方式等信息
  3. 正文无多余代码
4. 过滤出的内容，标记好过滤原因，反馈给运营。

处理标准字段

标题伪原创：
1. 选择字数5~24字之间的标题，提交给环宇用脚本采集“百度相关”
2. 组合新标题、样式为“{百度相关词},{原标题“或”头条相关词}”
3. 做透视表，让编辑选择合适的标题，并标记批次。
4. 生成新标题，录入到原始数据表
内容伪原创：
1. 利用伪原创工具处理
关键词：
1. tagword通过关键词库取出匹配的关键词
2. 将tagword与keywords合并，产生关键词
图片标签：
1. 利用标题与图库中标签匹配，命中的标记为图片标签录入到上传表
2. 未命中的，录入通用标签“中西药品”
标记分类：
1. 通过工具，匹配医药的分类
2. 采集源数据的分类
3. 组合生成分类标记

编辑工作

挑选标题：运营批量处理后，会提供几组标题供编辑选择，编辑需要挑选合适的标题，挑选后会自动录入到原始表。
审核内容：批量审核，因伪原创工具产生的错误
关键词补充：部分未匹配到的关键词需人工补全
标记分类：部分未匹配到分类的内容，人工通过采集源分类进行标记，如果均没有分类标识，则需要人工判断选择分类。

更新: 2023-01-31 13:50:54
原文: <https://www.yuque.com/seoer/cqcaf3/hvo0mleahilipx46>

版权所有

许可证：署名 4.0 国际 (CC-BY-4.0)