【直通车优化关键词】网站中的文本相似度也异常重要

2018年8月24日22:26:55 发表评论

【直通车优化关键词】网站中的文本相似度也异常重要【直通车优化关键词】网站中的文本相似度也异常重要-1
网站中的文本类似度也反常重要

  【番禺网站优化】网站中的文本类似度也反常重要。

  在今天头条中,用户反应了很多的问题在这中间说到最多的问题就是网站中为什么总引荐一些重要的问题?关于这种状况来说,不同的人重复的内容含义不同。举个比方来说,有人在看一些将文娱八卦的文章。但这些文章确是昨日现已看到的类似内容,那么今天再看,它就是重复的了。关于怎么处理这一内容,咱们就需求能够判别类似的文章,看看他们的主题、主体等内容,然后依据这些内容做一些线上策略。

  相同的文章中还有一些时空特征,这些特征能够协助咱们剖析内容发作的地址以及它的时效。比方在损伤现行的工作推给广州的用户就没有含义。在文本的最终咱们还要考虑与质量相关的特征。来判别文章的内容是低俗仍是软文亦或是鸡汤。

  别的咱们要知道语义标签的特征以及它能够使用的场景。要知道在他们之间存在着不同的层级以及不同的要求。

  而作为分类的方针他就是能够掩盖全面,期望网站中的每一篇文章每一个视频都能够分类,它的实体系统要求愈加准确,要知道相同的姓名或相同的内容指定的人或物也不尽相同,掩盖的范围也不全面,而在概念体系中,它主要处理一些较为准确,但又有些笼统的语义。这些就是网站开始的分类。

  现在,隐式语义特征现已能够很好的协助引荐,而语义标签需求继续标示,新名词新概念不断出现,标示也要不断迭代。其做好的难度和资源投入要远大于隐式语义特征,那为什么还需求语义标签?有一些产品上的需求,比方频道需求有清晰界说的分类内容和容易了解的文本标签体系。语义标签的作用是查看一个公司NLP技术水平的试金石。

  网站中的

  今天头条引荐体系的线上分类选用典型的层次化文本分类算法。最上面Root,下面第一层的分类是像科技、体育、财经、文娱,体育这样的大类,再下面细分足球、篮球、乒乓球、网球、田径、游水...,足球再细分国际足球、中国足球,中国足球又细分中甲、中超、国家队...,相比独自的分类器,使用层次化文本分类算法能更好地处理数据倾斜的问题。有一些破例是,假如要提高召回,能够看到咱们连接了一些飞线。这套架构通用,但依据不同的问题难度,每个元分类器能够异构,像有些分类SVM作用很好,有些要结合CNN,有些要结合RNN再处理一下。

  上图是一个实体词辨认算法的case。基于分词成果和词性标示选取候选,期间可能需求依据知识库做一些拼接,有些实体是几个词的组合,要确定哪几个词结合在一起能映射实体的描绘。假如成果映射多个实体还要经过词向量、topic散布乃至词频自身等去歧,最终计算一个相关性模型。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: