百度工程师:搜索引擎概述

1、基本架构:漏斗

抓取系统:

  • 概述:负责互联网资源挖掘,计算权重,类别,可信度,年龄,Ajaxa,javascript做单独的解析,对网站/页面最初打分,并贯穿整个系统
  • 任务:从万亿控制到千亿,容量/质量,抓取大环和时效性环,兼顾全面性和快

配额有限,如何最优化

  • 链接分析
  • 外链数量,抓取反馈,用户反馈(贯穿整个系统
  • 站内外重复率:核心内容在站内是否有重复性,站外是否有可替代资源
  • 稳定程度
  • 长尾抓取:百度请求一个URL,网站什么时候ResponseHTML(服务器日志每一次抓取的反馈时间),假设搜索引擎给予一小时抓取时限
  • 易变页面挑选:常更新页面?
  • 浅层页面:零级页面由搜索引擎定义,而非站长定义
  • 优先Check和优先抓取:是否优先抓取取决于页面类型(博客,新闻,商情,教育,体育)
  • 评论域:单独分析,利用评论数据增加页面分数(评论代表用户愿意在网站留下数据)
  • 百度可以区分边栏和内容

站点评级

  • 长期,每一级URL互相影响,积累,页面属性向上汇聚
  • URL表现,一点点积累权重
  • 站点规模,外链,点击率,入库率(优质劣质比例很重要),5118及爱站估算过高
  • 被百度认可的URL有多少个很重要,假设某个目录坏属性达到一定级别都会影响到其他页面或者整站
  • 主动访问,query满足度,作弊,年龄
  • 新站,最好一开始就走对方向
  • 大站评级人工审核(权威性作为大站标准)
  • 权重继承(一个域名拆成多个域涉及非常多的计算)
  • 用户反馈
  • 不建议做极端尝试,反作弊无所不在
  • 站点类型不同,表现差别很大(比如对小说站松一点,对其他站点严格点,根据现状审视搜索引擎)

超链系统:质量远比数量重要

  • 源URL
  • 目的URL
  • 链接上的文字,锚文本
  • 出链
  • 入链
  • Term > URL
  • 原理简单,计算复杂
  • 越多指向,网站越重要
  • 越多同一Topic指向的网页越相关
  • 专一性和同质性比站点评级重要,反作弊关注
  • 政府黑链是不被百度认可的,根据相关算法就可以打击
  • 除了Anchor,还有站内搜索
  • 如果有,站内搜索词是非常重要的,甚至可以指导SEM
  • 纯SEO页,是否进入核心业务流
  • 站内抓取,分析各种页面类型之间的联通度,Anchor的建设情况(用什么锚文本指向)
  • 外链筛选
    • Anchor本身是IP或URL
    • 低质URL的出链,拒绝外链工具(抓了个犯人,问他认识哪些人)
    • 排除一些低质的外链是有利于锚文本的纯净度
    • 防止以下:个人主页,高热新词,站长签名
    • 链接权重:复杂问题

索引系统:

索引筛选:

  • 千亿级控制到百亿
  • 重复筛选:
    • 站外,站点PK
    • 站内重复度,商情页注意
    • 哈希(签名):页面签名,页面主体内容签名,页面核心内容签名,页面模版向量,模版批量建站
    • 定期全量重算,有改过自新度机会
  • 相关性计算
    • 内容分析
    • 超链分析
    • 反作弊过滤
    • Term-url权重,基础相关性
      • 十二生肖
      • 十二生肖 龙
      • 十二生肖 成龙
      • 十二生肖 歌曲
    • 内容分析
      • 底层,title,Anchor(锚文本纯净度),offset(关键词的位置),TF(出现次数),紧密度(通篇讲还是局部讲)
      • 中级特征,keyword,realtitle,重要性,mainanchor(百度会自己算出一个Anchor)
      • 高级特征,用户感知,站点属性值,页面主体,页面类型
      • 分析页面内容,对信息粒子计算,例:人民解放军(人民,解放军)每个粒子和URL关系,和页面关系

检索系统:

  • 给出760条结果
  • 任务:百亿清理至几百页
  • 点击调权:点击行为反思用户是否满意,对算法,策略,模型提供改良参考
  • 时效性,泛时效性
  • 站点性质不一样,优化效果不一样

用户反馈

  • 点击反作弊
  • 满意点击
  • 页面停留时间
  • 大规模人工评估LTR(机器学习),针对query不针对站点
  • 站内搜索资源

2、一点建议

  • 欲速则不达,新站,可替代性高,不可能在短期内拿到很多流量,如果有则会被列入反作弊
  • 重视流量质量,而不只是数量,站内转化
  • 不要涉黑,站群,轮链
  • 关注站点安全:单个目录被黑会影响整站
  • 页面和搜索需求匹配度

留下评论

电子邮件地址不会被公开。 必填项已用*标注