医药内容生成流程
约 945 字大约 3 分钟
2025-07-31
采集数据说明
资讯
字段 | 字段含义 | 字段说明 |
---|---|---|
id | 数据id | 用于问题回溯查找源 |
Title | 标题 | |
Description | 描述 | |
Body | 正文 | |
Keywords | 数据源关键词 | 可以合并使用 |
tagkey | 匹配关键词库的词 | |
Keshi | 数据源分类 | 可以合并参考要录入的分类 |
class | 匹配我们的分类 | |
Ctime | 采集源发布时间 | 可以按采集源发布时间,查找问题特征,按时间过滤 |
Time | 采集时间 | |
Len | 文章字数 | 过滤字数少,空内容 |
Pageurl | 采集源地址 | 回溯问题,查找特征 |
Jibing | 采集源疾病 | |
Dise | 匹配库疾病 | |
Durg | 匹配库药品 |
问答
字段 | 字段含义 | 字段说明 |
---|---|---|
id | 数据id | 用于问题回溯查找源 |
Title | 标题 | |
question | 问题描述 | |
answer | 回答 | |
Keywords | 采集源关键词 | 可以合并使用 |
tagkey | 匹配库关键词 | |
Keshi | 采集源分类 | 可以合并参考要录入的分类 |
class | 匹配库分类 | |
Ctime | 采集源发布时间 | 可以按采集源发布时间,查找问题特征,按时间过滤 |
Time | 采集时间 | |
Len | 字数 | 过滤字数少,空内容 |
Pageurl | 采集源地址 | 回溯问题,查找特征 |
Jibing | 采集源疾病 | 可以合并使用 |
Dise | 匹配库疾病 | |
Durg | 匹配库药品 | |
xingbie | 性别 | |
nianling | 年龄 |
整理过滤原则及流程
- 限定医药相关内容:
- 通过医药相关关键词限定
- 通过采集源特征限定,如采集源指定采集的医药相关分类的内容
- 过滤内容
- 数据查重:根据正文or回答内容进行数据查重,过滤掉重复内容。
- 标题过滤原则:
- 字数>5,标题无乱码
- 5<字数<24,之间可以使用批量标题处理。
- 标记重复标题
- 正文&回答过滤原则:
- 正文&回答>50,无乱码
- 正文过滤采集源版权信息,个人版权信息,电话,网站,联系方式等信息
- 正文无多余代码
- 过滤出的内容,标记好过滤原因,反馈给运营。
处理标准字段
- 标题伪原创:
- 选择字数5~24字之间的标题,提交给环宇用脚本采集“百度相关”
- 组合新标题、样式为“{百度相关词},{原标题“或”头条相关词}”
- 做透视表,让编辑选择合适的标题,并标记批次。
- 生成新标题,录入到原始数据表
- 内容伪原创:
- 利用伪原创工具处理
- 关键词:
- tagword通过关键词库取出匹配的关键词
- 将tagword与keywords合并,产生关键词
- 图片标签:
- 利用标题与图库中标签匹配,命中的标记为图片标签录入到上传表
- 未命中的,录入通用标签“中西药品”
- 标记分类:
- 通过工具,匹配医药的分类
- 采集源数据的分类
- 组合生成分类标记
编辑工作
- 挑选标题:运营批量处理后,会提供几组标题供编辑选择,编辑需要挑选合适的标题,挑选后会自动录入到原始表。
- 审核内容:批量审核,因伪原创工具产生的错误
- 关键词补充:部分未匹配到的关键词需人工补全
- 标记分类:部分未匹配到分类的内容,人工通过采集源分类进行标记,如果均没有分类标识,则需要人工判断选择分类。
更新: 2023-01-31 13:50:54
原文: <https://www.yuque.com/seoer/cqcaf3/hvo0mleahilipx46>