静待水到渠成

搜索引擎结果质量量化的学习笔记

最近都是学习笔记的节奏哈~~归根到底是我太弱了,有好多要学习的东西~~

今天转发的是搜索引擎结果质量的量化方法的介绍。
对原文进行了更符合PM需求的改动,去掉了一些技术实现的细节。

搜索引擎的结果质量如果是人工来判断,主观性较强,需要有一个量化的并且尽量自动化的指标。
本文主要介绍的就是搜索引擎结果质量的常见评价指标和量化方法。与君共学。

陈运文: http://www.infoq.com/cn/articles/cyw-evaluate-seachengine-result-quality

前言

搜索质量评估是搜索技术研究的基础性工作,也是核心工作之一。评价(Metrics)在搜索技术研发中扮演着重要角色,以至于任何一种新方法与他们的评价方式是融为一体的。
搜索引擎结果的好坏与否,体现在业界所称的在相关性(Relevance)上。相关性的定义包括狭义和广义两方面,狭义的解释是:检索结果和用户查询的相关程度。而从广义的层面,相关性可以理解为用户查询的综合满意度。直观的来看,从用户进入搜索框的那一刻起,到需求获得满足为止,这之间经历的过程越顺畅,越便捷,搜索相关性就越好。 本文总结业界常用的相关性评价指标和量化评价方法。

Cranfield评价体系

二十世纪五十年代英国Cranfield University提出了一套由查询样例集、正确答案集、评测指标构成的完整评测方案,并从此确立了 ...

数据挖掘基础知识学习笔记

搜索,尤其是个性化搜索与数据挖掘关系密切。
当搜索的质量达到一定水平,就不能再拘束于小修小补;
而应该往数据挖掘方向发展,当起自家产品的研究院,用数据做更多更大更有意思的事情!

于斯,补充一些数据挖掘方面的知识,为自己充电,也与君共享。

资料链接
http://blog.csdn.net/sherrymi/article/details/21323969
http://www.vsharing.com/k//2013-10/690272.html

基础概念
当被存储在本地时的数据称作数据,当把数据经过加工处理,它们转变成了有用的信息。如果信息经过合理的组合能够产生价值,特别是商业价值,此时就可以称其为知识。
数据挖掘的过程就是数据加工处理变成信息,最后转化为知识的过程。
大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。

主要工具
有商用的MATLAB、IBM Intelligent Miner、SAS ...

个性化搜索引擎学习笔记

搜索做了半年,亟需解决的问题基本没有了,前两代搜索引擎所能做的事情完成得尚可。
之前的搜索引擎学习笔记里对第三代搜索引擎介绍较少,故另外详细学习下个性化搜索引擎。
为后续的工作提供基本的技术知识。

资料链接 http://blog.csdn.net/xiaoyu714543065/article/details/7932154

个性化搜索引擎的目标

准确描述用户兴趣:为不同用户提供不同的服务, 以满足不同的需求。提高站点的服务质量和访问效率,从而吸引更多的访问者。
用户感应式:user sensitive PageRank, 搜索引擎感兴趣的不单单是某个单一用户的个性化搜索,而是某些用户的分类化(式)的个性化(较小范围内显性/隐性用户反馈的集合)。
直觉搜索:(intuitive search):能够在用户没有考虑清楚要寻找什么之前,为用户呈现所需的信息。

个性化搜索引擎的分类

目前,个性化服务根据其所采用的推荐技术可以分为两种:基于规则的系统和基于信息过滤的系统,其中信息过滤系统又可分为基于内容过滤的系统和基于协作过滤的系统。

基于规则的系统:利用预定义的规则来过滤信息,它的优点是简单直接,缺点是规则质量很难保证,而且不能动态更新,此外,随着规则的数量增多,系统将变得越来越难以管理。
基于内容过滤的系统 ...

灰度发布相关学习笔记

知乎:
http://www.zhihu.com/question/20584476
http://www.zhihu.com/question/21714205
腾讯大讲堂:
http://djt.qq.com/article/view/16

灰度发布与灰度发布系统

灰度发布是指在黑与白之间,能够平滑过渡的一种发布方式。灰度发布可以保证整体系统的稳定,在初始灰度的时候就可以发现、调整问题,以保证其影响度。

AB test就是一种灰度发布方式,让一部分用户继续用A,另一部分用户开始用B,如果用户对B没有什么反对意见,那么逐步扩大范围,把所有用户都迁移到B上面来。
内测发布也是一种灰度发布方式,只有内部员工可以体验到新版本,如此可以提前发现新版本的问题,及时调整,减少上线的风险。
AB test由于是从用户中分出一半来体验新版本,涉及的用户面较广,因而除非某个功能牵动大量的用户信息和数据信息,或者做迁移的成本很高,或者实在无法准确判断用户对两功能的态度,否则尽量不要采用AB test。AB ...

Native APP与Web APP的学习笔记

小小总结下百度和知乎上看到的关于各类APP实现方式的知识。
扫下盲,以免跟技术GG沟通时太白痴哈~

Native APP、Web APP、Hybrid App

App,指运行在智能的移动终端设备第三方应用程序。

在高端智能手机系统中主要有以下几类应用程序:

Native App是一个原生程序,运行在本地操作系统如IOS、Android、WP上并使用原生程式编写运行,又叫本地APP。在实现上是使用Objecttive-c和cocoaTouch Framework撰写的IOS程序,或者选择java+Android Framework撰写android应用程序等。

Web App是基于高端机的浏览器运行的应用,宿主是浏览器不再是操作系统,其实也就是一个针对手机操作系统优化后的web站点,是一个触屏版的网站。它使用的技术一般是HTML或HTML5、CSS3、JavaScript,服务端技术JAVA、PHP、ASP。不过,现在由于高端智能手机(Iphone、Android)的内置浏览器都是基于webkit内核的,所以在开发WEBAPP时,多数都是使用HTML5和CSS3技术做UI布局。

Hybrid App是介于上面二者之间的一种半原生程序,伪造了一个浏览器的apk/ipa原生程序,把地址写死了,然后里面运行了一个webapp ...

给政府官员讲解云计算的窍门——转自网络

做产品尤其是搜索这种重视策略的产品,还是需要懂技术滴~
分享一篇用通俗易懂的语言介绍云计算的神文!

作者:杨海峰
微信链接:http://mp.weixin.qq.com/s?__biz=MjM5MjEzMDk4Mg==&mid=200013405&idx=1&sn=5c07564af93ad5430df6fe152b3a9719&scene=2&from=timeline&isappinstalled=0#rd

技术人员怎么也讲不清楚的云计算,咱们的高级总监曾经就是这样和政府领导普及云计算的知识,却都听懂了:

你娶了一个老婆,这叫传统IT架构。你觉得一个老婆不够,这叫传统企业CIO的困境。你又娶了一个老婆,这叫双活数据中心。你在外地又娶了一个小老婆,这叫两地三中心容灾。你娶了很多风格气质各异的小老婆,以至于形成了后宫,这叫私有云。你的后宫就叫计算资源池。你从后宫里选出懂事有能的管理其他小老婆,这叫私有云管理方案。管事的那个就是HYPERV或VMWARE。你不娶小老婆,改成包养很多情人,这叫托管云。

你是穷人,没有钱包养任何人也没钱娶小老婆 ...

搜索引擎基础知识学习笔记

虽然我现在做的并非传统的网页搜索,但是搜索引擎的基本思想有大部分是通用的。
在学习搜索引擎的基础知识的过程中,我果然发现很多熟悉的思想,也算是将自己的经验所得做个知识梳理。

资料链接 http://blog.csdn.net/xiaoyu714543065/article/details/7932134

基于词频统计——词位置加权的第一代搜索引擎

利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想,其技术发展也最为成熟,是第一阶段搜索引擎的主要排序技术,应用非常广泛,至今仍是许多搜索引擎的核心排序技术。其基本原理是:关键词在文档中词频越高,出现的位置越重要,则被认为和检索词的相关性越好。

词频统计
文档的词频是指查询关键词在文档中出现的频率。查询关键词词频在文档中出现的频率越高,其相关度越大。但当关键词为常用词时,使其对相关性判断的意义非常小。TF/IDF很好的解决了这个问题。TF/IDF算法被认为是信息检索中最重要的发明。
TF(Term Frequency):单文本词汇频率,用关键词的次数除以网页的总字数,其商称为“关键词的频率”。
IDF(Inverse Document Frequency):逆文本频率指数,其原理是,一个关键词在N个网页中出现过,那么N越大 ...