【主题匹配度】百度相关性评估培训资料:主题匹配度打分
约 7418 字大约 25 分钟
2025-07-31
百 度 内 部 文 档 , 未 经 允 许 , 请 勿 转 发 |
---|
百度相关性评估培训:主题匹配度打分 |
---|
目录 |
---|
1什么是主题匹配度打分................................................................................................. 2<br/>2主题匹配度打分的步骤................................................................................................. 2<br/>3主题匹配度评分标准..................................................................................................... 2<br/>3.1主题匹配度 4档——完全匹配..........................................................................2<br/>3.2主题匹配度 3档——比较匹配..........................................................................3<br/>3.3主题匹配度 2档——部分匹配..........................................................................4<br/>3.4主题匹配度 1档——很少匹配..........................................................................4<br/>3.5主题匹配度 0档——完全不匹配......................................................................5<br/>4打分注意事项..................................................................................................................5<br/>4.1 Query多义判分................................................................................................... 5<br/>4.2页面转义判分...................................................................................................... 6<br/>4.3标题匹配,页面内容差判分..............................................................................6<br/>4.4命中边框判分...................................................................................................... 6<br/>4.5作弊页判分.......................................................................................................... 7<br/>4.6权限问题判分...................................................................................................... 7<br/>4.7死链判分...............................................................................................................7<br/>4.8搜索结果页判分.................................................................................................. 7<br/>5平台注意事项..................................................................................................................8<br/>5.1页面异常,直接打开 URL查看..........................................................................8<br/>5.2需要抛弃的情况.................................................................................................. 8<br/>5.3需要备注的情况.................................................................................................. 8<br/>6主题匹配度打分与五个维度......................................................................................... 8<br/>6.1时效性...................................................................................................................8<br/>6.2有效性...................................................................................................................8<br/>6.3丰富度...................................................................................................................9<br/>6.4便捷性...................................................................................................................9<br/>6.5权威度...................................................................................................................9<br/>7不同类别的 Query判断................................................................................................. 9<br/>7.1 URL查询...............................................................................................................9<br/>7.2人名.....................................................................................................................10<br/>7.3资源满足类........................................................................................................ 10<br/>7.4网络小说............................................................................................................ 10<br/>7.5问答类................................................................................................................ 11<br/>7.6 Key-Value类.......................................................................................................11<br/>7.7原文类 Query..................................................................................................... 11<br/>8本篇小结........................................................................................................................11<br/>8.1主题匹配度打分标准纲要................................................................................11<br/>8.2主题匹配度打分流程图....................................................................................12 |
---|
1 |
---|
百度内部文档,未经允许,请勿转发 |
---|
1什么是主题匹配度打分 |
---|
主题匹配度打分,指评估 Query表述的意思(主题)和页面表述的意思(主题)的匹配程度,<br/>即判断 Query主题和页面主题是否一致及多大程度上一致。 |
---|
用不同的分值表示二者匹配的程度,这里使用的五个分值依次是 4、3、2、1、0。 |
---|
<br/><br/> |
---|
Query,也可称查询词、关键词、搜索词,指用户为进行查找而在搜索框中输入的字词。<br/>本文中出现的 Query,用“【”、“】”括起来,如【搜狐】、【周杰伦 MP3】。<br/>Term,指 Query中的一个词。如【搜狐】,搜狐为一个 Term;【北京二手房】,北京为一<br/>个 Term,二手房为另一个 Term。 |
---|
URL,也称为网页地址,本文所说的页面即 URL对应的网页结果。 |
---|
2主题匹配度打分的步骤 |
---|
评估过程的四个步骤: |
---|
(1)根据 Query表述的意思确定 Query主题;<br/>(2)根据页面表述的意思确定页面主题;<br/>(3)判断 Query主题和页面主题是否匹配以及多大程度上匹配;<br/>(4)选择合适的分值。 |
---|
3主题匹配度评分标准 |
---|
标准概要: |
---|
<br/><br/><br/><br/> |
---|
4档——完全匹配<br/>3档——比较匹配<br/>2档——部分匹配<br/>1档——很少匹配<br/>0档——完全不匹配 |
---|
3.1主题匹配度 4档——完全匹配 |
---|
(1)页面主题和 Query主题完全匹配,页面标题不需要完全匹配。<br/>【孕妇最适合的水果】<u>http://wenku.baidu.com/view/c5a6a81cfad6195f312ba654.html</u><br/>标题是“最适合孕妇吃的水果”,虽然标题与Query不完全一致,但二者在主题上完全匹配。<br/>【迅雷点任务就崩溃】<u>http://zhidao.baidu.com/question/270053204.html</u><br/>标题是“迅雷一点任务就崩溃”,页面内容也是围绕这个主题展开,对于主题匹配标注,不<br/>必考虑页面内回答是否真实有效地解决了问题。 |
---|
(2)页面主题比 Query主题略小,但页面主题占 Query查询需求的较大比重。<br/>【周杰伦】<u>http://mp3.baidu.com/singerlist/%D6%DC%BD%DC%C2%D7.html</u><br/>页面主题是周杰伦的歌曲列表,是 Query主题的主要需求方面。 |
---|
【南京新城市广场美食】<u>http://www.xici.net/d47103547.htm</u> |
---|
2 |
---|
百度内部文档,未经允许,请勿转发 |
---|
页面主题是南京新城市广场中餐馆,中餐馆是美食的主要方面。 |
---|
【招聘赶集网】<u>http://sh.ganji.com/zhaopin/</u>页面为赶集网上海招聘。这种 Query本身包含<br/>地域需求,类似的有【天气预报】,页面出北京天气预报,可认为是 Query主题的主要方面。<br/>(3)Query主题比页面主题略小,且 Query主题是页面中的主要属性。属性指用来描述某<br/>个实体的一种特征,如地名、邮编、手机号码等。 |
---|
页面中的属性 |
---|
【电影宿醉的英文名称】<u>http://www.leqiys.com/movie/xiju/suzui2/</u><br/>页面主题介绍了该电影的各个属性,英文片名是主要属性之一。<br/>【武汉大学出版社电话】<u>http://wuhan.youbian.com/huangye/info145160/</u><br/>页面主题是武汉大学出版社的联系方式,电话是其主要属性之一。<br/>(4)原文 Query:页面精确匹配 Query,且能唯一的确定某一篇文章。<br/>原文 Query:用户通过一句话来精确查找所需的整篇原文。不限于文章,可包括:诗词歌赋、<br/>文言文、各类文件、歌词、帖子、试卷中的某道题,关键是完整包含这句话的文章只有固定<br/>的一篇。 |
---|
【这是 1996年,霍懋征在政协第八届全国委员会常委会第 16次会议上】<br/><u>http://news.china.com.cn/rollnews/2010-02/17/content_628689.htm</u><br/>Query与新闻中的图片标题精确匹配,确定了固定的一篇新闻。<br/>【关于建立统一的企业职工基本养老保险制度的决定】 |
---|
<u>http://www.sdpc.gov.cn/jyysr/zcfg/t20050714_35691.htm</u> |
---|
<u>http://wenku.baidu.com/view/fcd0112c453610661ed9f4f0.html</u><br/>以上两条 URL都是通过 Query精确匹配而确定的固定的一篇文章。 |
---|
3.2主题匹配度 3档——比较匹配 |
---|
(1)页面主题比 Query主题偏小,但页面主题对 Query主题起重要作用。<br/>【幻灯片在线制作】<u>http://article.pchome.net/content-642178.html</u><br/>页面主题是一款幻灯片在线制作工具,是 Query主题的重要方面。<br/>【将进酒李白】<u>http://wenku.baidu.com/view/c33f021352d380eb62946d53.html</u><br/>页面主题是《将进酒》教案,是 Query主题的重要方面。 |
---|
【快递查询】<u>http://www.yto.net.cn/</u>页面是圆通快递查询,是 Query主题的重要方面。<br/>(2)Query主题比页面主题偏小,只和页面的一部分匹配,其余部分是Query主题的常见<br/>扩展或自然外延。 |
---|
页面主题 |
---|
Query主题 |
---|
扩展或外延部分 |
---|
3 |
---|
百度内部文档,未经允许,请勿转发 |
---|
【灵魂和元神的区别】 |
---|
<u>http://wenda.tianya.cn/wenda/thread?sort=wsmopts&tid=1f9c1b025e559b79</u><br/>页面主题是“神识,元神,灵魂,阿那耶识的解释”,Query主题与其中的“灵魂、元神”<br/>匹配,页面其他部分与“灵魂、元神”属于同类概念,看作 Query主题的常见扩展。<br/>【种植牙对身体有伤害吗】 |
---|
<u>http://www.pinpaitong.com/html/news/20114/176881.htm</u> |
---|
Query主题与页面中“种植牙的副作用”匹配,页面其他部分“种植牙的定义及优点”伴随<br/>“种植牙的副作用”一起出现,看作 Query主题的自然外延。 |
---|
3.3主题匹配度 2档——部分匹配 |
---|
(1)页面主题比Query主题明显偏小,是Query查询需求的次要方面。<br/>【淘米网】<u>http://www.cfi.net.cn/p20110520000643.html</u><br/>页面主题是淘米网一条相关新闻,是Query主题的次要方面。<br/>【圆通快递】<u>http://jandan.net/2009/09/20/yuantong.html</u><br/>页面主题是一位客户对圆通快递的评论,是Query主题的次要方面。<br/>(2)Query主题比页面主题明显偏小,只和页面的一部分匹配,其余部分与Query主题领<br/>域相关。 |
---|
【关于丽江句子】 |
---|
<u>http://eblog.cersp.com/userlog30/229208/archives/2009/1140778.shtml</u><br/>页面主题是《走进丽江》教学设计,页面内有少量关于丽江的句子,其他部分也是围绕丽江。<br/>【姚市余姚市城东路88号】 |
---|
<u>http://www.f202.cn/web8/5680.shtml</u> |
---|
页面主题是多家企业信息列表,Query与其中的一条信息匹配,其余部分与Query领域相<br/>关,同属联系方式。 |
---|
(3)页面主题是Query主题的扩展或外延,语义重心发生偏离。<br/>【宝安区福利中心】 <u>http://www.7yly.com/1529/index.html</u><br/>页面主题是“宝安区福利中心宝馨颐养院的联系方式”,语义重心是宝馨颐养院,而不是福<br/>利中心。 |
---|
【如何经营安利】<u>http://home.51.com/wushuq1366/diary/item/10051578.html</u><br/>页面主题是如何成为安利经营者,是 Query主题的扩展,但语义重心偏离“如何经营”。 |
---|
3.4主题匹配度 1档——很少匹配 |
---|
(1)页面主题和Query主题基本不相关,页面仅有很少部分和Query相关的信息。<br/>【绍兴市韩彬翔】<u>http://blog.sina.com.cn/s/blog_4c9259c60100fzre.html</u><br/>页面中仅提到这个人的身份。 |
---|
【临安人民广场】<u>http://news.sina.com.cn/c/2010-03-18/055717234114s.shtml</u><br/>页面仅仅是提到了这个地方。 |
---|
(2)页面主题和Query主题领域相关,但丢失了重要的限定成分。<br/>【南开大学艺术理科 2010年录取分数线】 |
---|
<u>http://zsb.nankai.edu.cn/shownews.asp?newsid=1154</u> |
---|
页面内容是南开大学 2010各省录取分数线,但和艺术无关。<br/>【4399疯狂过山车游戏第 9关全攻略】 |
---|
4 |
---|
百度内部文档,未经允许,请勿转发 |
---|
<u>http://news.4399.com/xyxgl/201004-24-67147.html</u> |
---|
页面是这个游戏,但没有第9关。 |
---|
(3)页面主题和Query主题领域相关,但是term间关系不符合需求。<br/>【上海到广州软座的火车时刻表】 |
---|
<u>http://www.17u.net/train/train-show-80-321-KT-1.html</u><br/>页面内容是广州到上海的火车时刻表。 |
---|
【qq语音,对方能听能说,但我放歌对方却听不见】<br/><u>http://zhidao.baidu.com/question/181646204.html?push=ql</u><br/>页面内容是“对方听不到我说的话,但能听到我放的歌”,与Query需求不符。 |
---|
3.5主题匹配度 0档——完全不匹配 |
---|
(1)重要term被拆散,命中页面相互无关的部分,term之间没有联系。<br/>【夏枯草菊花茶】<u>http://mianmo.520i520.com/mianmo/2308.html</u><br/>页面中夏枯草菊花茶被拆成两个部分,之间没有联系,而Query夏枯草菊花茶作为一个整体。<br/>【詹姆斯9投0中】 |
---|
<u>http://3g.ifeng.com/sports/nba/zhuqiang/news?aid=11603211&mid=7B4JUj&vt=2%3D&m=1</u><br/>页面主题是“皮尔斯10投0中遭詹姆斯完爆”,重要term被拆散。<br/>(2)丢失重要term,导致页面不符合需求。 |
---|
【prada眼镜半框 1bo-101】<u>http://www.yigoupai.com/item-taobao-402015.html</u><br/>页面主题是 Prada服装,丢失了重要 Term“眼镜”。<br/>【山西省阳泉市 2009年高二会考试题】 |
---|
<u>http://www.ks5u.com/down/2006-1/23/61694.shtml</u> |
---|
页面主题是仙游一中 2005年物理试题,丢失了地点和年份等重要 Term。<br/>(3)核心term严重转义导致结果完全不相关。 |
---|
【你知道潜水艇吗?它在军事上的作用可大呢】 |
---|
<u>http://blog.163.com/xiaozhaojiu@126/</u> |
---|
页面中“潜水艇”为地漏的品牌名,严重转义。 |
---|
【章丘游军】 |
---|
<u>http://baike.baidu.com/view/33122.htm</u> |
---|
页面中命中的“游军”,指李渊时代游散的军队,而Query是章丘名叫游军的人。 |
---|
4打分注意事项 |
---|
4.1 Query多义判分 |
---|
【艺龙】 |
---|
<u>http://www.elong.com/</u>,“艺龙旅行网”,名为“艺龙”的公司网站,完全匹配,4分;<br/><u>http://chinayeloon.com/</u>,“艺龙动漫”,另一个“艺龙”的公司网站,完全匹配,4分;<br/><u>http://baike.baidu.com/view/4826474.htm</u>,“艺龙动漫的实训基地”限定为实训基地,比主题<br/>“艺龙”略小,但是Query主题的一个重要方面,3分。<br/>同理,【卓越】,结果出“卓越信通公司”与“卓越亚马逊”等同公司名的在主题匹配度上是<br/>认为没有差异的,页面出公司官网都可给4分。 |
---|
5 |
---|
百度内部文档,未经允许,请勿转发 |
---|
4.2页面转义判分 |
---|
按转义程度给分,最高不超过2分: |
---|
(1)轻微转义:转义后仍能部分保留Query本身的含义,给1分或2分<br/>【正大光明】 |
---|
<u>http://hi.baidu.com/davidyangcn/</u>,结果出“正大光明博客”,为轻微转义结果,给2分。<br/><u>http://gaohong1987.blog.51cto.com/</u>同名博客,但博客中无内容,降档打分,1分。<br/>【正大光明博客】 |
---|
<u>http://hi.baidu.com/davidyangcn/</u>,则为主题完全匹配结果,给4分;<br/><u>http://gaohong1987.blog.51cto.com/</u>,若博客同名但无内容 ,给2分。<br/>(2)严重转义:转义后的页面完全失去了Query本身所表达的意思,给0分<br/>【东微】 |
---|
<u>http://www.enet.com.cn/article/2011/0210/A20110210822712.shtml</u>,结果出“马东微博”则属<br/>于严重转义,给0分。 |
---|
4.3标题匹配,页面内容差判分 |
---|
页面标题与Query主题匹配,但页面内容差,常见的有以下几种情况:<br/>(1)有问无答或答非所问 |
---|
【在家里发生的事作文350字】 |
---|
<u>http://zhidao.baidu.com/question/133694901</u>,提问与Query匹配,但无回答,2分<br/>(2)Query是找某个账号的博客,页面中账号匹配,但是博客无内容<br/>【正大光明博客】 |
---|
<u>http://gaohong1987.blog.51cto.com/</u> |
---|
,同名博客,但博客无内容,2分。 |
---|
4.4命中边框判分 |
---|
页面主题与Query主题不匹配,命中边框内结果的最多标注1分。<br/>【谁告诉我主要是为了给自己拍照买卡西欧TR150】<br/><u>http://zhidao.baidu.com/question/402382660.html</u> |
---|
在页面下方“相关内容”中有相关问题链接,主题匹配度给1分。<br/>在主题匹配度标注项目中,判断依据是页面主题和Query主题的匹配程度,页面主题不相关,<br/>就算边框链接中的内容再好,打分也不会高。 |
---|
6 |
---|
百度内部文档,未经允许,请勿转发 |
---|
4.5作弊页判分 |
---|
(1)作弊页,为了提高搜索引擎检索命中率,在网页中故意穿插与网页内容不相关的关键<br/>词或大量堆积某些关键词;网页中加入搜索引擎可识别但用户看不见的隐藏文字,如使用同<br/>背景色文字、超小字号文字、滥用图片等低质页面;网页中故意制造大量链接指向某一固定<br/>网址,上述情况都属于网页作弊。 |
---|
(2)作弊分为轻微作弊和恶劣作弊两种情况。轻微作弊是指网页虽有不相关的关键词穿插<br/>其中,但不影响用户获取信息,主题匹配度标注中,轻微作弊页进行正常打分,不考虑作弊<br/>的影响。恶劣作弊是指网页作弊情况严重,网页结果对用户完全无帮助,主题匹配度标注中,<br/>恶劣作弊页打分为 0,备注“恶劣作弊”。 |
---|
(3)恶劣作弊页实例: |
---|
<u>http://t.sohu.com/p/m/923658624</u> |
---|
<u>http://hi.baidu.com/zuigeili/blog/item/cf1efdeb45b868c5b21cb1ea.html</u><br/>恶劣作弊页的主题匹配度为0分,注意打分后,需要在备注下拉菜单中选择“恶劣作弊”。 |
---|
4.6权限问题判分 |
---|
打开页面直接是登录页,遇到需要登录才能看页面内容的情况,此类页面由于无法判断实际<br/>页面的主题匹配度,请在打分项中选择“抛弃”,同时在备注下拉菜单中选择“权限”。<br/>【2011成人学位英语考试时间】 |
---|
<u>http://www.watchstore.com.cn/dispbbs.asp?boardid=55&ID=6561067</u> |
---|
4.7死链判分 |
---|
死链,“死掉”的链接。包括两类,一是标准的出错页面,如 404(未找到文件)、500(服<br/>务器内部错误)、401(未授权)、403(禁止访问)、连接被重置等;二是页面主体提示说页<br/>面不存在、内容已转移、已删除、域名过期或出售、空间被关闭、网站要备案等。<br/>死链的处理方式和权限页面类似,请在打分项中选择“抛弃”,同时在备注下拉菜单中选择<br/>“死链”。 |
---|
4.8搜索结果页判分 |
---|
搜索结果页一般以标题列表形式出现,用户需要二次点击页内标题链接,才可看到具体页面。<br/>搜索结果页的判分不需要点开页内具体标题,而是通过各标题综合匹配程度来进行判分,若<br/>页面中标题均与 Query匹配,那么则认为二者主题匹配程度高,可给 4分、3分;页面中部<br/>分标题与 Query匹配,可给 2分、1分;页面中标题均与 Query无关的,则认为完全不匹配,<br/>给 0分,以下是常见的几种搜索结果页: |
---|
【郭晶晶】<u>百度新闻列表搜索结果页</u>页内新闻标题相关,3分 |
---|
【N8】<u>泡泡网站内搜索结果</u>泛需求,页内标题整体来看与Query主题部分匹配,2分<br/>【加勒比海盗4】<u>谷歌新闻列表搜索结果页</u>页内新闻标题无命中,仅仅提到,1分<br/>【临汾高客时间表】<u>新浪乐居论坛搜索结果页</u>页内标题无关,0分 |
---|
对于一些资源类Query会有很好的站内搜索结果,如: |
---|
【数据恢复软件】<u>http://dl.pconline.com.cn/sort/1329.html</u><u> </u> 4分<br/>【周杰伦mp3】<u>http://ting.baidu.com/search?key=%E5%91%A8%E6%9D%B0%E4%BC%A6</u>4分<br/>同时在打分后,在备注下拉菜单中选择“检索页”。 |
---|
7 |
---|
百度内部文档,未经允许,请勿转发 |
---|
5平台注意事项 |
---|
5.1页面异常,直接打开 URL查看 |
---|
若抓取的页面异常——空白、结构错乱、页面主体空白等,请直接点击平台左上侧的 URL, |
---|
根据浏览器中新打开的页面来判断。如图所示: |
---|
5.2需要抛弃的情况 |
---|
若平台结果为死链或受权限限制的登录页面,需要打分中选择“抛弃”选项,同时需要备注 |
---|
“死链”或者“权限”。 |
---|
5.3需要备注的情况 |
---|
目前平台备注下拉菜单里有 4个选项,分别是“恶劣作弊”、“权限”、“死链”、“检索页”,<br/>遇到这 4种情况请在进行打分后,在备注里点击相应的选项。 |
---|
6主题匹配度打分与五个维度 |
---|
6.1时效性 |
---|
主题匹配度打分不受页面资源的时效性影响。若 Query【戛纳电影节】,未指明哪一届,页<br/>面主题是任意一届戛纳电影节,都认为二者主题匹配好。若 Query中明确指明时间,如【2011<br/>年戛纳电影节】,结果出第 64届,认为主题匹配度好;结果出第 62届,则认为主题匹配差。<br/>【戛纳电影节】 |
---|
<u>http://ent.163.com/special/00033BPT/62th_cannes.html</u> |
---|
第 62届,Query重要方面,3分 |
---|
<u>http://ent.sina.com.cn/f/m/cannes64/index.shtml</u> |
---|
第 64届,Query重要方面,3分 |
---|
【2011戛纳电影节】 |
---|
同样的上面两个结果,结果 1丢失了重要的限定成分,认为仅领域相关,判为 1分,结果 2<br/>完全匹配判为 4分。 |
---|
6.2有效性 |
---|
主题匹配度打分不受页面资源的有效性影响。用户搜某软件下载,主题匹配度打分不需要进 |
---|
行真正地下载看下载的软件是否免费、是否带病毒、是否是目标软件而不是其他软件等,而 |
---|
8 |
---|
百度内部文档,未经允许,请勿转发 |
---|
只要确认了页面主题是目标软件下载,资源究竟是否有效不影响主题匹配度打分。<br/>【跑跑卡丁车下载】 |
---|
<u>http://youxi.zol.com.cn/ol/index1483.html</u>,中关村在线的跑跑卡丁车下载,4分。<br/>【跑跑加速外挂】 |
---|
<u>http://www.99tianji.com/tianji404140.html</u>,论坛软件需回复下载,4分。 |
---|
6.3丰富度 |
---|
主题匹配度打分不受页面资源丰富度影响。即仅提供 1篇范文的页面和提供 2篇以上范文的<br/>页面,只要页面主题均与 Query匹配,主题匹配度打分没有区别。<br/>【一件难忘的事】 |
---|
<u>http://www.bomimi.com/a/nanwangdeyijianshi/2010/0114/447.html</u>,4分; |
---|
<u>http://zhidao.baidu.com/question/152842992.html</u> |
---|
,4分。 |
---|
6.4便捷性 |
---|
便捷性,指从打开页面开始,到寻找到所需信息、达到最终目的,所要花费的时间和成本。<br/>便捷性对主题匹配没有影响。 |
---|
【高考满分作文“风沙渡”让小吃店“风沙渡”红了】 |
---|
<u>http://society.people.com.cn/GB/15026918.html</u> |
---|
<u>http://news.xinhuanet.com/edu/2011-06/29/c_121597458.htm</u><br/>同一篇新闻,结果 1不用翻页即可阅读全文,结果 2将一篇新闻分成了好几页,用户需要翻<br/>页才可完成阅读,但是对于主题匹配度打分,只要页面主题和 Query主题匹配了,便捷性不<br/>影响打分,这两个结果均判为 4分。 |
---|
6.5权威度 |
---|
权威性考察的是内容发布在不同网站、或内容贡献者的身份给用户的不同感觉。对于主题匹 |
---|
配度来说,权威度不影响打分。<br/>【胃病治疗】 |
---|
<u>http://zhidao.baidu.com/question/259284412.html?an=0&si=1</u> |
---|
百度知道结果 |
---|
<u>http://jib.xywy.com/il_sii_624.htm</u> |
---|
专业疾病治疗网站结果 |
---|
主题匹配度打分不考虑权威度上的差异,二者均为 4分。 |
---|
7不同类别的 Query判断 |
---|
7.1 URL查询 |
---|
URL查询作为一种特定形式的Query需求,页面为Url目标网站,可给4分,其他页面最多<br/>不超过2分: |
---|
【www.sohu.com】 |
---|
<u>http://www.sohu.com/</u>目标网站 4分; |
---|
<u>http://www.wap.sohu.com/</u>搜狐网站的 wap入口,是 Query主题的次要方面,2分; |
---|
<u>http://www.293.net/sohu.com</u>网站价值、流量分析页面,对用户帮助很小,1分; |
---|
9 |
---|
百度内部文档,未经允许,请勿转发 |
---|
<u>http://k22k22k22.banzhu.net/</u>页面 title命中 Url,但实际页面与主题完全不匹配,0分。 |
---|
7.2人名 |
---|
人名类 Query不做普通人与名人区分,博客、微博、社交网络等的个人页面,以及人物专题、<br/>作品集,4分;关于该人名的贴吧、新闻专题集合等,3分;人的某条新闻(一般名字出现<br/>在新闻的标题中),2分;新闻中仅仅提到该人名(指新闻标题中未出现,仅在正文中提到),<br/>1分;其他完全不匹配情况,0分。 |
---|
【马丽丽】 |
---|
<u>http://baike.baidu.com/view/750716.htm</u>百科介绍、个人简历、微博、博客,4分<br/><u>http://tieba.baidu.com/f?kw=%C2%ED%C0%F6%C0%F6</u>马丽丽贴吧,给 3分<br/><u>http://suihua.dbw.cn/system/2010/05/12/052503539.shtml</u>马丽丽的新闻报道,2分<br/><u>http://tieba.baidu.com/p/1421751880</u>页面仅仅提到该人名,1分<br/>【郭晶晶】 |
---|
<u>http://baike.baidu.com/view/53064.htm</u>郭晶晶百科,4分 |
---|
<u>http://tieba.baidu.com/f?kw=%B9%F9%BE%A7%BE%A7&fr=ala0</u>郭晶晶贴吧,3分<br/><u>http://sc.sina.com.cn/ent/culture/2012-03-06/090654198.html</u>郭晶晶新闻,2分<br/><u>http://tieba.baidu.com/p/1428953662</u>贴吧的某贴,主题是吴敏霞,提到了郭晶晶,1分 |
---|
7.3资源满足类 |
---|
Query明确查找资源,如下载视频,页面没有提供下载资源,例如搜“宫锁心玉下载”,出<br/>结果是“宫锁心玉剧情”,或者是“宫锁心玉在线观看”,可按照降档的方式来标,例如<br/>4->3,3->2。最低到2,因为虽不可下载但比仅仅的领域相关要好很多。Query求电影,页<br/>面实际给了预告片;视频Title与Query一致,但需要安装插件才能观看,虽无法判断实际<br/>视频是否真实有效,但均不影响打分。 |
---|
【宫锁心玉下载】 |
---|
<u>http://www.dygod.net/html/tv/hepai/guochan/20110223/31012.html</u>下载资源,4分;<br/><u>http://www.tudou.com/playlist/p/a65393.html</u>在线观看,3分; |
---|
<u>http://jq.tvmao.com/episode/GongSuoXinYu-11279/0/</u>分集剧情,2分;<br/>注意以下两种情况: |
---|
【电影马文的战争】<u>http://www.tudou.com/playlist/id/6375616/</u>页面是电视剧马文的战争,<br/>与电影马文的战争存在一定的关联,领域相关,比完全不匹配的情况要好,给 1分。<br/>【碟中谍2】<u>http://www.tudou.com/playlist/p/l6279918i26016380.html</u>豆单名字是碟中谍2,<br/>页面实际视频 title是甄子丹的“情逢对手”,需要仔细对照视频 title,给 0分。 |
---|
7.4网络小说 |
---|
网络小说不用区分是否为同名小说,不用区分是否为首发站,不用区分是否为收费小说<br/>【侯卫东官场笔记】 |
---|
<u>http://book.kanunu.org/files/yuanchuang/201102/1528.html</u>小说列表首页,4分;<br/><u>http://baike.baidu.com/view/3605885.htm</u>百科介绍,豆瓣专题,作为重要方面,3分;<br/><u>http://book.kanunu.org/files/yuanchuang/201102/1528/6394.html</u>具体的某一章节,3分;<br/><u>http://book.kongfz.com/16975/142946588/</u>书籍相关购买信息,次要方面,2分; |
---|
10 |
---|
百度内部文档,未经允许,请勿转发 |
---|
<u>http://news.dsqq.cn/ROLLNEWS/2012/01/1320151662319.html</u>文中仅提到,1分。 |
---|
7.5问答类 |
---|
问答类 Query的主题匹配度判分注意 3点: |
---|
(1)页面问题是否与 Query一致; |
---|
(2)问题是否得到回答,答案是否与问题相关,是围绕问题回答的。<br/>(3)问题与 Query匹配,有问无答以及答案与问题不相关的情况,给 2分;若页面问题较<br/>Query主题偏小或偏大,对于有问无答或者答案较差的情况,给 1分。<br/>【钟馗是怎么死的】 <u>http://zhidao.baidu.com/question/77982197.html</u><u> </u>4分;<br/>【女主角漂亮的电影】<u>http://zhidao.baidu.com/question/329075321.html</u>女主角漂亮的美国<br/>电影,作为 Query主题的重要方面,给 3分; |
---|
【迅雷一点任务就崩溃】 <u>http://helpbbs.xunlei.com/read.php?tid=464023</u>页面问题与 Query<br/>匹配的情况下,回答差或者有问无答,给 2分; |
---|
【最漂亮的女主角】 <u>http://wenda.tianya.cn/wenda/thread?tid=0d954c10dafd1a95</u>页面问题<br/>是香港三级片最漂亮的女主角,比 Query主题偏小,且回答差,给 1分。 |
---|
7.6 Key-Value类 |
---|
Key-Value类 Query:如地名、邮编、手机号码等,多用来描述某个实体的一种特征。<br/>主要有两种情况:页面主题与 Query相关,且页面包含了相应的关键值,4分;页面主题与<br/>Query不太相关,但页面提供了相应的关键值,2分。 |
---|
【电影醉宿的英文名称】<u>http://www.leqiys.com/movie/xiju/suzui2/</u>页面与 Query主题相关,<br/>且页面包含了相应的 Query值,4分。 |
---|
【武汉大学邮编】 <u>http://www.gs.whu.edu.cn/search/gse/</u>页面主题不太相关,但页面中提<br/>供了相应关键值,2分。 |
---|
7.7原文类 ** Query** |
---|
原文 Query:用户通过一句话来精确查找所需的整篇原文。可包括:诗词歌赋、文言文、各<br/>类文件、歌词、帖子、试卷中的某道题。原文类 Query可能标题不相关,但内容满足匹配。<br/>【实行行政裁量权源头控制制度】 |
---|
<u>http://www.mlr.gov.cn/zwgk/flfg/dfflfg/201203/t20120316_1074314.htm</u>,4分。 |
---|
8本篇小结 |
---|
8.1主题匹配度打分标准纲要 |
---|
(1) 4分——完全匹配,以下四种情况出现时:<br/>页面主题=Query主题 |
---|
页面主题<Query主题,且页面主题占 Query查询需求的较大比重<br/>页面主题>Query,页面主题与 Query相关,且 Query是页面中的属性 |
---|
原文 Query |
---|
11 |
---|
百度内部文档,未经允许,请勿转发 |
---|
(2) 3分——比较匹配,以下两种情况出现时: |
---|
页面主题<Query主题,且页面主题对 Query主题起重要作用<br/>页面主题>Query主题,页面其他部分是 Query的常见扩展或外延内容<br/>(3) 2分——部分匹配,以下三种情况出现时: |
---|
页面主题<<Query主题,是 Query查询需求的次要方面 |
---|
页面主题>>Query主题,页面部分匹配,其他部分与 Query领域相关 |
---|
页面主题是 Query的扩展部分,语义重心偏离<br/>(4) 1分——很少匹配,以下三种情况出现时:<br/>很少相关信息 |
---|
领域相关,但页面丢失了重要限定<br/>领域相关,term关系不符合需求<br/>(5) 0分——完全不匹配,以下三种情况出现时:<br/>重要 term拆散无关联 |
---|
丢失重要 term导致页面不合需求<br/>严重转义导致不相关 |
---|
附件: 【主题匹配度】百度相关性评估培训资料:主题匹配度打分.pdf
更新: 2020-04-21 09:50:17
原文: <https://www.yuque.com/seoers/uyyd4f/ns5reh>