ChatGPT测试分析
约 708 字大约 2 分钟
2025-07-31
一、测试数据准备
- 总关键词:2083,其中,疾病词815个,药品词851个,医院词1028个;
- 200个词每个词生成4条数据,用来测试数据重复度;
- 1883个词每个词生成1条数据,用来测试数据准确性。
二、生成结果
- 指定生成800字内容时,数据会截断,无法判断内容是否完整,所以用脚本生成时,建议只跑问答数据
- 总生成数据量2694条,400字以上数据:236条,可用56条,可用率23.7%;40字以下数据:188;40-400字数据量为2270条,可用1781条,可用率78.4%。所以生产的单条数据可做问答,可用多条问答组合成文章。直接用来生成文章不合适。
- 关于重复度,200个关键词总生成数据量808条,其中重复数据2条,重复率千分之2,属于可接受范围。
- 原创度:抽检100条数据,最低原创度50%,主要被基础数据降低了,例如:
- 数据总可用率为68.1%;其中疾病词的可用率为72.5;医药词的可用率为:70.9%;医院词的可用率为:62.4,医院词偏低主要为{哪家医院好,医院排行榜,医院介绍,专科医院等}类型词生产的质量较差,其他大多情况均为数据缺头缺尾、乱码等。
- 数据准确性:抽查了一部分,没有发现错误的,但是作为健康行业,数据的准确性要求比较高,需要确认每条数据是否准确,综合68%的可使用率,编辑的工作量比采集的方式更大。
三、通用问题
- 中文掺杂英文;
- 纯英文;
- 简体繁体混合内容;
- 没有结尾,内容被截断;
- 最后一段出现问题的几率较大,一般为错别字,文字拼凑无法形成完整的句意;
- 最好的医院(药品)此类关键词生成的数据广告居多。
- 内容会有乱码以及未分段的情况出现
- 十大、10条等类型数据显示不全,会缺项。
四、优点
- 格式内容多,容易获得搜索引擎的喜爱;
- 精确的关键词+不限制字数=高使用率的数据。
五、结论
- 在人工充足的情况下可使用该工具;
- 可抽调部分人力生产特殊格式内容,人力主要用来检查数据的准确性;
- 不建议直接使用自动生成后的数据。
更新: 2023-03-02 18:20:34
原文: <https://www.yuque.com/seoer/cqcaf3/qg9mq0sl18gcx3dg>