2008年4月18日星期五

blogger更年轻受更多教育但更贫穷更少看报纸

今年1月有个美国博客调查,Marketing Charts转载为"Study: Bloggers Younger, More Educated and Ethnically Diverse"。调查对象是“偶尔或经常(occasionally or regularly)写博客的人,占网络用户26%(26% of the [online] population)”,样本量15727,主要数据有:
53.7%男性,44.7%已婚,10.4%为学生,28.4%拥有专业或管理职位
较之美国18岁以上成年人总体,写博客的blogger们更年轻(blogger平均37.6岁 vs. 美国成年人平均44.8岁),更贫穷(blogger $55,819 vs. 总体 $56,811),受教育时间更长(blogger 14.3年 vs. 总体 14.2年)
年龄
新媒体的使用
blogger获取信息比较积极,更愿意面对面交流,但阅读报纸更少。

2008年互联网十大预测

eMarketer的预测,转自Marketing Charts的"Ten Key Online Predictions for 2008":
1.Online ads remain resilient. (在线广告继续回升)
2.Video surge slows. (视频大潮放缓[视频内容仍会增加很多,视频广告仍会份额很小])
3.Social-network advertising hits $1.6 billion. (社会化网络的广告达到16亿美元)
4.Networking goes beyond MySpace and Facebook. ([社会化]网络将超越MySpace和Facebook[在线购物、搜索甚至邮件发送都会应用社会化网络])
5.YouTube decides the election. (YouTube决定大选)
6.Beijing Olympics pumps up ad spending. (北京奥运促进广告开支)
7.Buy online, pick up in-store becomes expected feature. (网上购买、网下提货[multichannel多渠道零售;省了送货费])
8.Movie downloading hits the mainstream. (电影下载成为主流)
9.Music marketers roll out new business models. (音乐市场尝试各种新的商业模式)
10Dynamic ads heighten gaming revenue potential. (动态广告提升游戏收入的潜力)

Google Blogger使用技巧

Blogger是Google提供的免费博客服务,提供中文界面,是一个很成熟的中文博客发布平台。
  Blogger一个突出的特点就是简洁但功能强大,没有多余而花哨的功能,必要的功能一个都不差。Bloger自由性最大的地方在于其模板可以自定义,也就是说你可以修改模板里的任何内容,包括Google的广告,这给那些懂Html和CSS的Blogger提供了很大的自由度。Blogger默认把用户的网志发布到免费提供的Blogspot.com主机上。可惜的是Blogspot.com从中国是无法访问。好在Blogger.com提供了一种很独特的服务,可以将博客的静态页面通过FTP发布到用户选择的服务器上。
  通过FTP发布到其他主机
  用户在Blogger.com上的默认Blog地址显然无法从国内访问,但是如果你有一个虚拟主机空间,或者其他支持FTP的空间,那么Blogger.com可以将这个地址上的日志文件全部发布到你的虚拟主机空间上去。
  具体的方法是:登陆你的Blogger帐号,进入控制面板,更改设置,在“发布”选项卡中点击FTP的超级链接,然后录入FTP服务器地址,FTP用户名和密码。点保存设置后,就可以发布了,这时Blogger.com会将你的整个站发布到你指定的主机上。
  至于这个FTP服务器,我推荐一个国内GFans提供的免费Blogger Spaces空间,支持FTP发布,最重要的是支持域名绑定,其服务器在广州,速度很快,希望大家不要滥用其服务。
  通过电子邮件发布日志
  在Blogger中写日志麻烦?告诉你一个技巧,你可以不登录Blogger网站,只要发送一封电子邮件就可以发表文章了。
  具体的方法是:登陆你的Blogger帐号,进入控制面板,更改设置,在“电子邮件”中,在Mail-to-Blogger地址中可以自定义一个邮件地址,发送到此地址的邮件会自动张贴,BlogSend地址是另外一个电子邮件地址,只要一发布文章,系统会将其邮寄文章到此地址。
  这里再介绍一个小技巧,就是在更新Blogger的同时也更新MSN Space。因为MSN Space也是支持邮件发布的,因此将Blogger发布后发送邮件的BlogSend地址修改为MSN Space的发布邮件地址,这样在Blogger上发布一篇文章后,系统就会自动将文章内容发送到Msn Spaces里,这样就同时更新了两个博客。
  有一点值得注意的是,Blogger默认的编码是UTF-8编码,因此发送邮件的时候要将邮件编码设置为UTF-8的格式,建议登陆GMail发送邮件。一来GMail默认就是UTF-8格式的,编码全兼容,二来GMail支持自动保存功能,不怕电脑死机后丢失文章,三来GMail还可以自动备份发出去的文章,以免文章丢失。
  使用第三方软件发布文章
  Zoundry是一个第三方的日志发布软件,可以做到不用登陆Blogger即可发布日志,使用它来编辑和发布,速度和效率都非常理想。
  添加Google Adsense广告
  Google Blogger用户可以很快捷方便地申请加入Google Adsense广告服务。Google本身也推荐博客们使用Blogger的广告来为自己和Google赚钱。
  Google工具栏的应用
  Google工具栏有一个按钮是“发送到Blogger”,可以快速将当前网页发送到自己的Blogger空间上。
  Google Picasa的应用
  Picasa是Google的图像管理软件,在Picasa中点图片,再点“Blog This”,可以将选定图片发送到自己的Blogger空间上。
  Blogger的申请地址是: http://www.blogger.com
转载自月光博客 [ http://www.williamlong.info/

在Google Blogger上定期发布文章

 据Google Blogger的官方博客报道,Blogger最近做了一个试验网站,里面包含了一些新版本的功能,可以将原先版本的草稿在指定的时间发布到主页上。
  如果你想要提前体验一下这个新功能,那么登录到draft.blogger.com而不是www.blogger.com,如果你看到不同的图案,那说明是找对地方了。
  Blogger最新的两个特色功能你都可以在draft.blogger.com上测试,分别是:
  1、预发布文章,你将文章写在草稿中,设置发布的时间和日期,那么在未来的指定时间,系统会自动将文章在那个时刻显示出来。
  2、侧栏的链接列表,这个侧栏链接列表是基于Google Reader的,可以显示那些最新更新的博客甚至包括更新的文章。
转载自月光博客 http://www.williamlong.info/

google怎样在google地球里的大片区域确定名字

成千上万名的用户在世界用途 Google 地球附近。大多数有强的-- 和有时相冲突-- 观点关于怎样地方应该被命名并且在哪里疆界应该被画。关于地名和领土疆界的争执存在在几乎每个区域, 和构成一些今天最情感地被充电的地缘政治的问题在世界。2004 年自从我们发射了Google 地球, 我们做我们最佳期望这些争论和对他们演讲用一个原则性, 严谨, 和一致的方式。

我们要Google 地球值得用户的信任作为权威的参考对于地理信息; 做, 我们打算是透明关于政策我们随后而来当我们遇到敏感地缘政治的争执。在这个blog 岗位里, 我提出我们的方法对命名水体。在未来blog 岗位里, 我将谈论我们的政策关于问题象地名、疆界地点、placemarks 内容由Google 地球社区引起, 和出现在一定数量的地点的被弄脏的成像的原因。

象任一位制图出版者, 我们的政策受到察视自许多小组, 特别当多个国家不同意关于正确名字对于共有的水体。当多数水体有一个共同的名字(认为"太平洋"), 其他人由不同的国家和文化叫做不同的名字。在placenames 上一些变化是可归属的对基于语言的变异 。其它区别, 然而, 反射更加宽广的政治, 历史, 或文化争执。例如, 水体在日本群岛和朝鲜半岛之间知道作为"日本海" 在日本, 而是作为"东海" 在南韩。

因为地理参考工具的出版者, 我们相信Google 不应该选择边在国际地缘政治的争执。因此, 我们选择实施主要地方用法一项 一致的政策。

根据这项政策, 英国Google 地球客户显示主要, 共同, 地方 被给水体由毗邻它的宗主国家。如果所有毗邻的国家同意名字, 那么共同的唯一名字被显示(即"加勒比海" 用英语, "3月Caribe" 用西班牙语, 等) 。但如果不同的国家争执固有名称对于水体, 我们的政策是显示 使用它的两个名字, 与各个标签被安置离国家或国家较近。

Google 地球的当中一个巨大特点是, 它使我们提供显着更加了不起的信息量比平展纸地图。如此除显示两个争执的名字之外, 我们并且提供提供有些详细的说明文本的一个clickable 正文框。例如, 如果您点击"黄海" 或"西部海" placemarks, 您将得到: "黄海是共同的英国名字与相关这个海特点, 知道在中国作为 。在韩国, 这个特点共同地指西方海; 在韩国或?? (Hangul)"。

为语言客户不同于英语, 我们显示唯一更喜欢的名字在相关的语言。例如, Google 地球的日本客户显示"日本海" 在日本(???), 当韩国语版本显示"东海" 在韩国(??). 在这些情况下, 我们仍然包括 两个 标签在点击箱子政治注释。我们相信这种解答牌子我们的产品有用对他们准备看的用户用各种语言由提出名字, 但没有横跨一步存在的一争执的供选择命名。用那样, 我们提供更多, 而不是, 信息当维护好用户界面和经验。

当我们的政策认为我们显示"主要, 共同, 地方" 名字对于水体, 每个那些三个形容词有一个重要和分明意思。由说"主要", 我们打算包括名字统治用途, 而不是必须增加每可以想像的地方绰号或变异。由说"共同性", 我们意味包括是在普遍每日用途的名字, 而不是给直接认识任何任意政府改名。换句话说, 如果统治者宣布太平洋从此会命名以她的母亲, 我们不会增加那placemark 除非和直到名字进入了共同的用法。终于, 由说"本机", 我们打算反射主要和共同的名字按实际上毗邻水体的国家使用, 因为他们是国家被认可根据国际法作为有一个特别宗主铁砧在它。

在我们的意图, 主要地方用法 规则引起中立地位、可观性, 和合法的优选的组合。我们并且希望, 它不负大多数的期望我们的用户和给这些重要地缘政治的争执展示适当的敏感性。

我们考虑的供选择的政策

因为我们服务我们的方式通过当前的套争执的名字对于水体, 我们考虑了和最后决定了反对几种供选择的政策方法, 包括:

权威的国际机构。 我们考虑试图整个地解救Google 从决定placenames 的问题由简单地顺从对一个现有的, 权威, 多边或multistakeholder 机关的决心。根据这项政策, 我们完全简单地 会采取 命名选择由那个身体设置, 没有行使我们自己的任何独立评断。特别是, 我们考虑使用联合国制图部分的出版物 和文件 作为权威的参考为命名水体。受到察视, 虽然, U.N. ・Cartographic Section 的出版物不提供覆盖面的水平和不选派我们希望达到为Google 地球。而且, 相当可理解地, 联合国作为机关不接受正式职位在偶尔地会要求它采取边在二个或更多会员国之中竞争的要求) 的地理名字(, 但是制图部分只反而发布教导以"与信息有关的实践的形式" 用于联合国文件和出版物。而且, 联合国由一些观看作为一个参与政事的组织, 倾向一些国家和地区要求在其他人。并且在联合国系统之内, 我们看 U.N. ・ Conference 的报告在地理名字的标准化, 召开每五年。会议, 然而, 不接受职位在地缘政治的争执在国家之间, 和因此对它的报告的信赖不是一个现实选择。

我们并且考虑采取名字由国际 水文组织( IHO), 服务, 尤其, 规范化船舶图和文件的一个国际小组使用。但IHO 的命名工作最近几十年来集中于(a) 命名海里的特点, 和(b) 定海洋和海界限和极限。它未同意解决当前的地缘政治的争执。而且, 组织的会员资格比一半包括较少全国水文办公室所有国家。

地理组织。 我们考虑采取一个或更多宽受尊敬的全国级地理组织的命名惯例象美国全国地理社会和英国皇家地理社会。但这些组织存在只在几大, 富有的经济, 并且许多相信他们不代表其它世界的地区的看法和价值。他们偶尔地并且得出关于名字和命名惯例的不同的结论, 并且它难设置一个中立, 客观规则为决定哪个组织随后而来。

院。 终于, 我们并且考虑进行credentialed 地理院勘测估计他们的意图至于适当的name(s) 被显示。但这个选择对可能的偏心-- 选择哪的仅仅过程太是忧虑的院勘测会是高度主观的。并且我们原因如果我们选上的专家是均匀地被分裂或未定的, 我们更会是没有离委派责任较近对外部当局。

所有事被考虑, 我们相信, 主要地方用法 规则, 如果严谨地和公平申请, 是一个更好的选择比任何这些三个选择。当然, 我们认为, 这项政策将留下某些人民怏怏不乐关于被显示为各争执的水体的一个收效的名字。但我们希望他们将接受那显示所有名字的主要并且共同的用途由所有国家毗邻水体是公平和外交的。

或许最重要地, 我们并且认为, 我们没有独占在地理真相。辩论关于正确的政策和实践为Google 地球有价值。愉快地足够, Google 地球的当中一个巨大特点是它的能力支持数据层创作和显示由一个感兴趣的人。它是我们慷慨激昂的希望, 不同的社区将使用Google 地球因为一个开放平台创造准确地反射他们的意图的内容。我们欢迎加法到我们的社区和网层数以便用户能访问所有问题的看法。

垃圾结果报告的新进展

发表者: Stefanie,搜索质量组,都柏林( 注:这篇博客的原文是由德语博客翻译至英语的)原文:An update on spam reporting发表于:2007年3月28日星期三,下午2:302006年,我们在沟通领域的几项努力之一就是,当某些网站管理员违反了我们的网站管理员指南向他们发出通知(例如使用了某种能够生成额外的"桥页"的"特殊搜索引擎友好"的软件)。在这些出于善意而发给网站管理员的电子邮件中,有相当数量是由我们的用户提交的垃圾结果报告所促成的。
我们对这些举报垃圾搜索结果的用户感到非常骄傲,他们提醒我们注意潜在的滥用和侵害从而维护了整个互联网社区的利益。我们对此尤其欣赏,因为PageRank™ (乃至谷歌搜索)都是以民主原则为基础的,比如,一个站长通过链向另一个网站的方式来对其投赞成票表示认可。
2007年,作为这一民主原则的延伸和完善,我们希望进一步强化用户的意识,让他们了解网站管理员的行为是否符合谷歌的标准。这样,具备了这些知识的用户就可以通过填写垃圾结果报告的方式来对垃圾结果采取抵制行动。最终,不仅所有的谷歌用户都可以受益于最佳的搜索质量,而且可以让那些违反网站管理员指南的站长们意识到,他们企图通过不公平的手段来操纵自己网站排名的尝试将会得不偿失。
我们的垃圾结果报告表单有两种不同的形式:一种是经过身份认证的表格,它要求用填写者已经注册了网站管理员工具,另外还有一种无需身份认证的表格。目前,我们对来自注册用户的垃圾结果报告进行逐一审阅和分析。由非注册用户提交的垃圾结果报告其影响会得到评估并且相当一部分也会得到审阅和分析。
所以,下一次当您忍不住觉得某一项搜索结果的排名并非得益于其内容价值和合理的搜索引擎优化的时候,就是您举报垃圾结果的最好时机。每一项举报都会向我们提供重要信息,让我们不断优化自己的搜索算法。
如果您还希望了解更多,请继续阅读以下最常见的三个问题及其解答。
有关垃圾结果报告的常见问题:
问:谷歌将会怎样处理经过身份认证的垃圾结果报告?答:我们将对已通过身份认证的垃圾结果报告进行分析,然后将其用于新的垃圾结果侦测算法,并用于判断网络垃圾的新趋势。我们的目的在于未来能够自动识别那些利用类似操纵手段的网站,并确保我们的算法能够恰当地为这些网站排序。当然,我们并不希望与个别满脑子坏主意的网站管理员玩所谓"猫捉老鼠"的低效率游戏。
问:为什么有时候垃圾结果报告并不能立即产生显著的效果?答:谷歌总是致力于改善自己的算法,与垃圾结果作斗争,但是我们也会对个别垃圾结果报告采取相应行动。有时这些行动的结果并不容易立即被外部用户察觉,因此您没有必要多次对相同的站点进行举报,敦促谷歌对特定URL进行评估。有的用户可能会有这样的错误印象,觉得自己提交的某一个垃圾结果报告"石沉大海"了,实际情况不是这样的,其中的一些原因包括:
有的时候,谷歌已经妥善处理了所举报的情况。例如,如果您报告某个站点看上去在从事过分的链接交换活动,可能发生的情况是,我们已经妥善地忽略不计了那些非正当反向链接的权重,而这个站点是出于其他原因才出现在搜索结果中的。要知道,谷歌对某个站点反向链接处理方式的改变,外界用户可能无法立即看出来。还有一种可能,就是我们已经在评分算法中对某种现象(例如关键字堆砌)进行了相应的处理,因此我们并不过分担心那些看起来不太美妙,但实际上并不影响网站排名的情况。
将被举报的站点从谷歌的流量中完全删除仅仅是其中的一种处理方式。谷歌有时候会先给网站一张“黄牌警告”,让这些网站在短时期内从索引中消失。但是,如果该网站无视这个信号,紧接而来的就是一张作用时间更长的“红牌”。所以,可能发生的情况是:谷歌已经注意到了这个问题,并且正在就这个问题与网站管理员进行沟通,或者我们根据某一垃圾结果报告,已经对特定网站采取了"摘牌"之外的措施。
还有的时候,我们的回答是请您耐心地再等一段时间,因为对算法改变的效果要想完全显现出来可能需要比较长的时间,外部显示的PageRank的更新也是需要一个周期的。
还有一种可能是,谷歌正在着手解决某一问题的更普遍的情况,所以我们不情愿只是针对某个个案采取行动。
某些垃圾结果报告有时候还可能被认为有失公允。例如,有些情况下,某份垃圾结果报告的动机仅仅是中伤其排名靠前的直接竞争对手。问:用户能从谷歌这里收到有关垃圾结果报告的反馈吗?答: 这是一个普遍的要求,而且我们知道,用户或许希望他们举报的URL得到验证,或者得到一个简单的确认,证明谷歌已经审阅过这个报告。但是由于时间有限,我 们决定将有限的时间和精力更多地放在对垃圾结果报告采取措施和改进我们的算法上 ,让谷歌的算法更加强大有效。不过,我们始终会广泛听取用户意见并且不断思考如何进一步改善与用户的沟通。

良好的站务管理

发表者:Michael Wyszomierski,搜索质量组原文:Good housekeeping发表于:2008年3月20日星期四,早上7:45今天是北半球春季的第一天,正是您开始春季大扫除的绝佳时间。但是作为一名站长,您的家务活并没有在完成车库的打扫后就大功告成了——您或许还需要对您的服务器做一些清扫工作。外部在我们着手清理内部之前,先站在外面,从大街上看一下您的站点——或者在谷歌搜索结果里看起来怎么样。只要随手打开离您最近的谷歌搜索框,使用查询格式[site:example.com]对您的网站进行一次站点收录情况检索即可。就象您总是会让您的门牌号码和信箱名字保持清晰可见一样,看看您的访问者能否方便地从谷歌所列出的标题和摘要中识别您的站点及其内容。如果您希望改善网站的目前面貌,请尝试使用谷歌网站管理员工具内容分析特性,并阅读相关资料,了解如何改善您的网站摘要
谈到让您的地址清晰可见,就要问问您的网站是怎样被列在搜索结果中的。比如我叫Michael,但是也有人叫我Mike甚至Wysz。但是,我只希望自己在电话簿上被列出一次。相似地,您的站点可能有些页面可以从多个不同的URL进入,例如:www.example.com和example.com。为了整合您网站在谷歌中的搜索结果,可以使用301重定向,告诉谷歌(和其他搜索引擎)您希望自己的页面怎样被收录和排列。您还能够借助网站管理员工具方便地告诉谷歌您所喜欢的域名。就象我希望银行知道,Mike和Michael名下的存款都应该归入同一账户下一样,那些重定向能够帮助谷歌恰当地整合指向特定目标网页的链接属性(比如PageRank)。内部无论您的房子再怎样整洁,如果您的访问者找不到大门或无从进入,您所做的一切都可能白费了。您需要通过多种浏览器来查看您的站点外貌和功能,并确保所有的访问者都能享受到您费尽苦心所设计的体验。并非所有的人都在使用Internet Explorer,所以我们建议您使用代表不同页面风格的浏览器进行查看。Firefox、Safari和Opera浏览网页的方式各不相同,而这三种浏览器可能决定着至少20%访问者的的网站浏览体验。对于有些站点,这个比重还可能更高——《纽约时报》最近报道说,他们的在线读者中有大约38%的人使用Firefox或者Safari。如果您的站点要求用户使用插件,请检查一下这些额外内容在不同的操作系统上是否能够正常运行。要知道,许多人只有在购买新机器的时候才升级他们的操作系统,所以您需要退后一到两个版本,看看您的站点在旧版本的操作系统上表现得怎么样。为了确保您不会把那些浏览功能受限的访问者拒之门外,最好尝试不用图片、Flash或者Javascript等方式来浏览一下您自己的站点。如果您想了解谷歌在爬行您站点时可能会碰到那些困难,请查阅网站管理员工具,看看里面是否有任何关于您站点的爬行错误的报告。清除垃圾不幸的是,我们中有很多人都接待过不速之客。如果他们走的时候留下了乱七八糟的东西,那就请帮帮那些未来的访问者,把这些垃圾清除出去。把留言簿中充斥着垃圾信息的页面删除。清除那些由各种广告商在您论坛里发布的毫不相干的垃圾帖。在丢掉垃圾的同时,注意有没有任何空白或者被废弃的页面。我们的地下室里总是有一些永远都没有顾得上收拾的东西。如果您的站点仍然有显示1997年前后“网站正在建设中”的图片的URL,或者还有类似于"Products > Shirts > Graphic T's: There are no graphic t's at this time"的模板,它们除了落满灰尘之外毫无用处,而且我敢打赌您今后再也不会回过头去把那些东西做完了。在您清除了垃圾,并修正了链接指向之后,请使用404 HTTP状态代码,从而确保访问者都知道这些网页已经不复存在了。您可以使用FireFox浏览器上的Live HTTP Headers插件来查看您的服务器返回了什么代码。安全性和预防性维护为了防止未来访问者对您的网站造成侵害,特别是防范那些可能在深更半夜潜入您家后门的不速之客,请按照我们的核对表逐项检查您是否已经具备了基本的安全措施。如果您站点的维护工作(例如升级软件包等)会让访问者暂时无法查看网站内容,请使用503 HTTP 状态代码告诉您的访问者,请他们谅解。它也会通知谷歌稍后再来拜访,而不会将您的错误页也当成网站内容的一部分。如果您使用的是WordPress,就能够借助维护模式插件,在设定状态编码的同时方便地设定您要传达的讯息。谈到入侵者和软件升级,您永远也不能预见什么时候会出错。在发生问题之前,现在就马上开始重新评估您的备份策略吧。就象您购买的家庭保险一样,花上一份努力和金钱,就能换回心里的平安,何况说不定到时候可能真的会排上用场呢!良好的备份系统可以将您的备份文件存放在工作站点以外的地方,而且会自动执行,不用担心自己会忘记。 在您更新软件或者进行大的改动之前,备份您的站点(包括其中的数据库)是一种非常明智的做法。

如何使用robots.txt

发表者: 马超, 石仁赫robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制。这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件。如果你想保护网站上的某些内容不被搜索引擎收入的话,robots.txt是一个简单有效的工具。这里简单介绍一下怎么使用它。如何放置Robots.txt文件robots.txt自身是一个文本文件。它必须位于域名的根目录中并 被命名为"robots.txt"。位于子目录中的 robots.txt 文件无效,因为漫游器只在域名的根目录中查找此文件。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt 则不是。这里举一个robots.txt的例子:User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~name/
使用 robots.txt 文件拦截或删除整个网站
要从搜索引擎中删除您的网站,并防止所有漫游器在以后抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:
User-agent: *Disallow: /要只从 Google 中删除您的网站,并只是防止 Googlebot 将来抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:User-agent: GooglebotDisallow: /
每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候,这些协议都需要有各自的 robots.txt 文件。例如,要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引,应使用下面的 robots.txt 文件。
对于 http 协议 (http://yourserver.com/robots.txt): User-agent: *Allow: /
对于 https 协议 (https://yourserver.com/robots.txt):User-agent: *Disallow: /允许所有的漫游器访问您的网页 User-agent: *Disallow:(另一种方法: 建立一个空的 "/robots.txt" 文件, 或者不使用robot.txt。)使用 robots.txt 文件拦截或删除网页您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。 例如,如果您正在手动创建 robots.txt 文件以阻止 Googlebot 抓取某一特定目录下(例如,private)的所有网页,可使用以下 robots.txt 条目:
User-agent: GooglebotDisallow: /private要阻止 Googlebot 抓取特定文件类型(例如,.gif)的所有文件,可使用以下 robots.txt 条目:User-agent: GooglebotDisallow: /*.gif$要阻止 Googlebot 抓取所有包含 ? 的网址(具体地说,这种网址以您的域名开头,后接任意字符串,然后是问号,而后又是任意字符串),可使用以下条目:User-agent: GooglebotDisallow: /*?尽管我们不抓取被 robots.txt 拦截的网页内容或为其编制索引,但如果我们在网络上的其他网页中发现这些内容,我们仍然会抓取其网址并编制索引。因此,网页网址及其他公开的信息,例如指 向该网站的链接中的定位文字,有可能会出现在 Google 搜索结果中。不过,您网页上的内容不会被抓取、编制索引和显示。作为网站管理员工具的一部分,Google提供了robots.txt分析工具。它可以按照 Googlebot 读取 robots.txt 文件的相同方式读取该文件,并且可为 Google user-agents(如 Googlebot)提供结果。我们强烈建议您使用它。 在创建一个robots.txt文件之前,有必要考虑一下哪些内容可以被用户搜得到,而哪些则不应该被搜得到。 这样的话,通过合理地使用robots.txt, 搜索引擎在把用户带到您网站的同时,又能保证隐私信息不被收录。

与谷歌机器人的第一次约会:标头和压缩

发表者:Maile Ohye (饰网站),Jeremy Lilley (饰谷歌机器人)原文: First date with the Googlebot: Headers and compression发表于: 2008年3月5日星期三,晚上6:13
姓名/用户代理: 谷歌机器人IP地址: 点击这里查看如何验证寻觅: 拥有独特而诱人内容的网站最不喜欢的行为:违反《网站管理员指南》谷歌机器人 -- 多么神奇的梦幻之舟!他了解我们的灵魂和各个组成部分。或许他并不寻求什么独一无二的东西;他阅览过其它数十亿个网站(虽然我们也与其他搜索引擎机器人分享自己的数据:)),但是就在今晚,作为网站和谷歌机器人,我们将真正地了解对方。我知道第一次约会的时候,过分地分析从来就不是什么好主意。我们将通过一系列的文章,一点点地了解谷歌机器人:
我们的第一次约会(就在今晚):谷歌机器人发出的数据标头和他所留意到的文件格式是否适于被进行压缩处理;
判断他的反应:响应代码(301s、302s),他如何处理重定向和If-Modified-Since;
下一步:随着链接,让他爬行得更快或者更慢(这样他就不会兴奋地过了头)。今晚只是我们的第一次约会……***************谷歌机器人: 命令正确应答网站: 谷歌机器人,你来了!谷歌机器人:是的,我来了!
GET / HTTP/1.1Host: example.comConnection: Keep-aliveAccept: */*From: googlebot(at)googlebot.comUser-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)Accept-Encoding: gzip,deflate网站: 这些标头太炫了!无论我的网站在美国、亚洲还是欧洲,你都用同样的标头爬行吗?你曾经用过其他标头吗?
谷歌机器人: 一般而言,我在全球各地所用的标头都保持一致。我试图从一个网站默认的语言和设定出发,搞清楚一个网页究竟长得什么样。有时候人们的用户代理各不相同,例如Adsense读取使用的是“Mediapartners-Google”:User-Agent: Mediapartners-Google或者对于图像搜索:User-Agent: Googlebot-Image/1.0无线读取的用户代理因运营商而异,而谷歌阅读器RSS读取则包含了订阅者数量等额外信息。我通常会避免Cookies(因此不存在所谓“Cookie:”标头),因为我并不希望与具体对话有关的信息对内容产生太大的影响。此外,如果某个服务器在动态URL而不是Cookies上使用对话ID,通常我都能识别出来,这样就不用因为每次对话ID的不同而成千上万遍地重复爬行同一个网页。网站:我的结构非常复杂。我是用许多类型的文件。你的标头说:“Accept:*/*”。你会对所有的URL进行收录,还是自动过滤某些文件扩展名?
谷歌机器人:这要取决于我想找什么。如果我只是对常规的Web搜索进行检索,当我看到指向MP3和视频内容的链接,我可能不会下载这些东西。类似地,如果我看到了一个JPG文件,处理方法自然 就与HTML或者PDF链接有所区别。例如JPG 的变动频率往往比HTML低很多,所以我不太经常检查JPG的变动,以节约带宽。同时,如果我为谷歌学术搜索寻找链接,那么我对PDF文章的兴趣就会远远高于对JPG文件的兴趣。对于学者而言,下载涂鸦绘画(例如JPG),或者是关于小狗玩滑板的视频,是容易让他们分散注意力的,你说对吗?网站:没错,他们可能会觉得被打扰到了。你的敬业精神令我佩服得五体投地。我自己就喜欢涂鸦绘画(JPG),很难抗拒它们的诱惑力。谷歌机器人:我也一样。实际上我并不是一直都在做学问。如果我为搜索图像而爬行,就会对JPG非常感兴趣,碰到新闻,我会花大力气考察HTML和它们附近的图像。还有很多扩展名,例如exe、dll、zip、dmg等,它们对于搜索引擎而言,既数量庞大,又没有多大用处。网站:如果你看到我的URL“http://www.example.com/page1.LOL111”,(呜噎着说)你会不会只是因为里面包含着未知的文件扩展名就把它拒之门外呢?
谷歌机器人: 网站老兄,让我给你讲点背景知识吧。一个文件真正下载完成后,我会使用“内容—类别”(Content-Type)标头来检查它属于HTML、图像、文本还是别的什么东西。如果它是PDF、Word文档或Excel工作表等特殊的数据类型,我会确认它的格式是否合法有效,并从中抽取文本内容。但是你永远也不能确定里面是否含有病毒。但是如果文档或数据类型混乱不清,我除了把它们扔掉之外,也没有什么更好的办法。所以,如果我爬行你的“http://www.example.com/page1.LOL111”URL并发现未知文件扩展名时,我可能会首先把它下载。 如果我从标头中无法弄清内容类型,或者它属于我们拒绝检索的文件格式(例如MP3),那么只能把它放在一边了。除此之外,我们会接着对文件进行爬行。网站:谷歌机器人,我很抱歉对你的工作风格“鸡蛋里挑骨头”,但我注意到你的“Accept-Encoding”标头这样说:Accept-Encoding: gzip,deflate你能跟我说说这些标头是怎么回事吗?
谷歌机器人:当然。所有的主流搜索引擎和WEB浏览器都支持对内容进行gzip压缩,以节约带宽。你或许还会碰到其它的一些类型,例如“x-gzip”(与“gzip”相同),“deflate”(我们也支持它)和“identity”(不支持)。网站:你能更详细地说说文件压缩和“Accept-Encoding: gzip,deflate”吗?我的许多URL都包含尺寸很大的Flash文件和美妙的图像,不仅仅是HTML。如果我把一个比较大的文件加以压缩,会不会有助于你更迅速地爬行呢?
谷歌机器人:对于这个问题,并没有一个简单的答案。首先,swf(Flash)、jpg、png、gif和pdf等文件格式本身已经是压缩过的了(而且还有专门的Flash 优化器)。网站:或许我已经把自己的Flash文件进行了压缩,自己还不知道。很显然,我的效率很高喽。谷歌机器人:Apache和IIS都提供了选项,允许进行gzip和deflate压缩,当然,节省带宽的代价是对CPU资源的更多消耗。一般情况下,这项功能只适用于比较容易压缩的文件,例如文本HTML/CSS/PHP内容等。而且,只有在用户的浏览器或者我(搜索引擎机器人)允许的情况下才可以使用。 就我个人而言,更倾向于“gzip”而不是“deflate”。Gzip的编码过程相对可靠一些,因为它不断地进行加和检查,并且保持完整的标头,不像 “deflate”那样需要我在工作中不断推测。除此之外,这两种程序的压缩算法语言都很相似。如果你的服务器上有闲置的CPU资源,可以尝试进行压缩(链接:Apache, IIS)。但是,如果你提供的是动态内容,而且服务器的CPU已经处于满负荷状态,我建议你还是不要这样做。网站:很长见识。我很高兴今晚你能来看我。感谢老天爷,我的robots.txt文件允许你能来。这个文件有时候就像对自己的子女过分保护的父母。
谷歌机器人:说到这里,该见见父母大人了——它就是robots.txt。我曾经见过不少发疯的“父母”。其中有些实际上只是HTML错误信息网页,而不是有效的robots.txt。有些文件里充满了无穷无尽的重定向,而且可能指向完全不相关的站点。另外一些体积庞大,含有成千上万条单独成行、各不相同的 URL。下面就是其中的一种有副作用的文件模式,在通常情况下,这个站点是希望我去爬行它的内容的:User-Agent: *Allow: / 然而,在某个用户流量的高峰时段,这个站点转而将它的robots.txt切换到限制性极强的机制上:# Can you go away for a while? I'll let you back# again in the future. Really, I promise!User-Agent: *Disallow: /上述robots.txt文件切换的问题在于,一旦我看到这种限制性很强的robots.txt,有可能使我不得不把索引中已经爬行的该网站内容舍弃掉。当我再次被批准进入这个站点的时候,我不得不将原先的许多内容重新爬行一遍,至少会暂时出现503错误相应代码。一 般来说,我每天只能重新检查一次robots.txt(否则,在许多虚拟主机站点上,我会将一大部分时间花在读取robots.txt文件上,要知道没有 多少约会对象喜欢如此频繁地拜见对方父母的)。站长们通过robots.txt 切换的方式来控制爬行频率是有副作用的,更好的办法是用网站管理员工具将爬行频率调至“较低”即可。谷歌机器人: 网站老兄,谢谢你提出的这些问题,你一直做得很不错,但我现在不得不说“再见,我的爱人”了。网站:哦,谷歌机器人…(结束应答):)

为“网站管理员工具”设计的iGoogle小工具

发表者: Jonathan Simon, 网站管理员工具组原文: iGoogle Gadgets for Webmaster Tools发表于: 2008年2月28日,周四, 上午10时59分首先,先提一个小问题:当您打算去做什么事情的时候,您是一个能简单就简单的最低要求者呢,还是一个面面俱到做好各方面准备的人呢?比如,您会在严寒的季 节只穿一件羊毛外套、口袋里随便揣个三明治就只身前往阿拉斯加的荒原,就像自然科学家John Muir那样?(而且我猜您一定认为好莱坞明星史蒂夫·麦奎因是一个了不起的硬汉?)又或者,您是那种哪怕只是一天的徒步旅行,也会准备好各种替换衣服,足够三餐吃的脱水食品、一大堆厨房用品、一个功率变换器和一个脚踩发电机的人么?因为,您永远不会确切知道什么时候自己不得不立即烤出吐司面包来。一直以来,Google的网站管理员工具小组都在尽最大努力满足各种类型网站管理员的需要,无论您是崇尚简约,还是习惯尝试您所能找到的任何工具和特性, 您都能在这里找到您所需要的。在阅读这篇博客时,您或许已经尝试过了最新版本的、提供了尽可能多的特性和功能的网站管理员工具。但是,或许您只是喜欢使用 那些对您来说是必要的特性。现在,就有一款专门为您定制的产品推出,那就是为iGoogle制作的“网站管理员工具”的小工具(Gadget)。下面将向您介绍如何快速使用这个小工具。(请注意:在这里,我们假设您已经有了一个网站管理员工具的帐号,并且已经在至少一个以上属于您的网站上成功运行过。)1. 访问“网站管理员工具”,选择任何一个您已经从面板激活过的网站;2. 点击工具部分;3. 点击小工具(Gadgets)部分;4. 点击那个较大较醒目的“添加一个iGoogle网站管理员工具首页”按钮;5. 在之后出现的确认页面中点击“添加至Google”按钮,把这个新的标签加入iGoogle;6. 现在,您已经在iGoogle里了,而且您应该已经看到您新的Google网站管理员工具标签和一系列的小工具(Gadgets)了。快快开始使用吧。您会注意到每一个小工具在顶部都有一个下拉菜单,这个菜单可以让您选择任何一个您已经生效的网站来查看已选定网站的各种Gadget信息。我们目前提供的小工具主要有:爬行错误 -- Googlebot搜寻引擎机器人在遍历并抓取您的网站时遇到过问题么?最热门检索词---人们通常是在搜索什么检索词时发现您的站点的?外部链接---哪些网站通过链接指向您的网站?未来我们打算为您添加更多的小工具,并且进一步提高它们的效率和质量。所以,如果您发现了任何一个您希望看到却并没有包含在现有小工具里的特性和功能,请告诉我们。正如您看到的,只要开始着手,一切都是很容易的!哦,西雅图现在好像乌云密布快下雨了,所以,我打算出去远足了,就先写到这里吧。

Blogger 服务条款

Blogger 服务条款
欢迎使用 Blogger!在您开始使用 Blogger 之前,需要阅读并同意遵守 Blogger 服务条款("服务条款")及下面的条款和政策,包括将来进行的所有修订(统称为"协议"):
Google 服务条款 - Google 的通用条款 (http://www.google.com/terms_of_service.html)
Google 隐私政策 - 我们如何在 Blogger (http://www.google.com/privacy.html) 上维护用户个人信息
Blogger 内容政策 - 我们如何促进言论自由和负责的发布内容 (http://www.blogger.com/content.g)
尽管我们会在 Blogger 服务条款发生重大变更时尽量通知您,但您还是应该定期查阅最新版本的条款 (http://www.blogger.com/terms.g)。Google 可以完全根据自己的判断,随时修改或修订这些条款和政策,您同意接受此类修改或修订的约束。如果您不接受或遵守此协议,则无法使用 Blogger 服务。如果 Blogger 服务条款与 Google 的一般性服务条款 (http://www.google.com/intl/en/terms_of_service.html) 或 Google 隐私政策 (http://www.google.com/privacy.html) 发生冲突,以 Blogger 服务条款(http://www.blogger.com/terms.g) 为准。本协议的任何内容不得视为赋予任何第三方权利或利益。
1. 服务说明。Blogger 是一项网络发布服务和选择性托管服务("服务")。您需要对您用户名下的所有活动负责,并有责任保证密码的安全。另外,您理解并同意本服务是"按原样"、"原供"提供。Google 对服务的可用性、适时性、安全性或可靠性概不承担任何责任。Google 还保留在事先通知或不通知的情况下,随时修改、暂停或终止服务的权利,不对您承担任何责任。
要使用本服务,您至少应年满十三 (13) 岁。Google 保留随时因任何原因在不发出通知的情况下拒绝向任何人提供服务的权利。
2. 正当使用。您同意,您对自己在使用服务时的行为、您文章的文章及其引发的任何后果负责。您同意在使用服务时遵守所有适用的当地、州(省)、国家/地区和国际法律、法规和规章制度,包括所有关于从您所在国家/地区出口技术数据和美国出口控制的法律。
您同意遵守 Blogger 内容政策 (http://www.blogger.com/content.g) 和此处列出的规则与限制。尽管我们会在 Blogger 内容政策发生重大变更时尽量通知您,但您还是应该定期查阅最新版本的 Blogger 内容政策。Google 可以完全根据自己的判断,随时修改或修订 Blogger 内容政策,您同意接受此类修改或修订的约束。
上述任何违规行为,包括违反 Blogger 内容政策 (http://www.blogger.com/content.g) 的行为,都可能导致本协议立即终止,并且,可能还要接受州政府和联邦政府的罚款及其他法律后果。Google 有权(但无义务)调查您对服务的使用情况,以便判断是否违反协议,或是否符合所有适用法律、法规、法定程序或政府要求。
Blogger.com 和 blogspot.com 上的大多数内容(包括特定文章的内容)均由发帖的个人提供和负责。Google 不会监控 Blogger.com 和 blogspot.com 的内容,也不对这内容承担任何责任。相反,Google 仅提供对此类内容的访问,并以此作为服务提供给用户。
由于 Blogger.com 和 Blogspot.com 本身的特性,其中可能会含有一些有攻击性、有害、不准确以及其他一些不得体的资料,或在某些情况下,还可能会有一些标示错误的文章或其他欺诈性文章。我们希望您在使用 Blogger.com 和 Blogspot.com 时多加小心,并运用常识进行正确判断。
Google 对通过服务发表的任何交流内容的真实性、准确性或可靠性不予认可、支持、表示异议或提供担保,也不对通过服务表述的任何观点予以认可。您承认,对任何通过服务发表的资料的可靠性风险,由您个人承担。
3. 隐私权。作为使用此服务的条件,您同意遵守Google 隐私政策 (http://www.google.com/privacy.html) 的条款,该条款可能会隨时更新,以您使用时公布的最新版本为准。您同意,为了遵守有效的法定程序或政府要求(例如搜查证、传票、法令或法庭命令),或在这些服务条款和通用 Google 隐私政策描述的其他情况下,Google 可访问或透露您的个人信息,包括通讯内容。Google 收集的个人信息可能会在美国境内或 Google Inc. 或其代理设立有机构的其他任何国家/地区存储和处理。使用服务表示您同意将此信息转移至贵国/地区以外的国家/地区。
4. 关于使用和存储的惯例。您同意,对于通过服务维护的任何内容或通讯记录,如出现删除、存储或传输失败,Google 概不负责。Google 保留自行决定在任何时间通知或不通知用户的情况下,对使用和存储设置限制的权利。
5. 服务内容。Google 对第三方内容(包括但不限于任何病毒或其他破坏性功能)不承担任何责任,Google 也没有义务对这类第三方内容进行监控。Google 始终保留在本服务上删除或拒绝分发任何内容的权利,如有违本协议条款的内容。另外,Google 保留在以下方面具有合理必要性的前提下,访问、阅读、保管和透露信息的权力:(a) 遵守所有适用法律、法规、法定程序或政府的要求;(b) 执行本协议,包括对可能存在的违规行为展开调查;(c) 检测、阻止或以其他方式解决欺诈、安全或技术问题;(d) 响应用户的支持请求;或者 (e) 保护 Google 及其用户和公众的权利、财产或安全。对于是否行使本协议赋予的权利,Google 概不承担任何责任。
6. 知识产权。Google 的知识产权。您承认 Google 拥有本服务的所有权利、资格和利益,包括所有知识产权("Google 权利")。Google 权利受美国和国际知识产权法保护。有鉴于此,您同意不会对本服务进行进行复制、再制或修改,或由本服务创作派生作品。您还同意不会使用任何漫游器、抓取工具、其他自动设备或手动过程对本服务的任何内容进行监控或复制。如下所述,"Google 权利"不包括作为服务一部分的第三方内容(包括服务中出现的通讯内容)的相关权利。
您的知识产权。对于您在 Google 服务上或通过 Google 服务提交、发表或显示的任何内容,Google 声明均不拥有任何所有权或控制权。您或第三方许可授权者可视情况保留任何您在 Google 服务上或通过 Google 服务提交、发表或显示的任何内容的专利权、商标权和版权,而您负责视情况保护这些权利免受侵害。在公开给公众的 Google 服务上或通过此类 Google 服务提交、发表或显示任何内容,即表示您授予 Google 在全球范围内非专有的免版税使用权,允许 Google 出于显示和分发 Google 服务等目的,再制、发布和分发此类内容。此外,Google 可全权酌情决定拒绝接受、发表、显示或传输内容。
您声明并保证您有一切必要的权利、权力和权限,授予任何提交的"内容"此处授予的权利。
您可以选择在获得公众许可证(如 创新共用许可协议)的前提下,通过或在Blogger 服务或 blogspot.com 上提交、发表并显示任何资料,您既可以通过手动将资料标记为此类内容,也可以使用 Blogger 完成此工作。为避免嫌疑,Google 不会充当您与任何第三方之间的公共许可参与方。另外,为避免嫌疑,Google 可能会选择行使您资料所适用的 (a) 公共许可证(如果有)或 (b) 本协议所赋予的权利。
7. 不得转售服务。除非获得 Google 的明确书面授权,您同意不会出于任何商业目的再制、重复、复制、销售、交易、转售或转让 (a) 服务的任一部分;(b) 服务的使用权;或 (c) 服务的访问权。
8. 公开性。任何对 Google 商业名称、商标、服务标记、徽标、域名以及其他鲜明标志(统称为"标志")的使用,包括"Blogger"、"Blogger.com"、"Blogspot"和"blogspot.com",都必须符合本协议以及 Google 当时最新的标志使用指南及其包含或引用的所有内容,这些资料位于 http://www.google.com/permissions/guidelines.html (或 Google 不时提供的其他此类网址)。
9. 声明与保证。您声明并保证 (a) 您在加入本服务时向 Google 提供的所有信息都是正确并且是最新的;(b) 您已取得所有必要的权利、能力和授权,能够签署本协议并执行下文要求的条款。
10. 终止;暂停。Google 可在任何时候出于任何原因单方决定终止提供服务,终止此协议或暂停或终止您的帐户。如果终止,您的帐户将被停用;尽管出于备份目的,其他信息副本还可能在我们的系统中保留一段时间,但您无权进入自己的帐户或访问帐户中包含的所有文件或其他内容。本协议的第 2、3、5 - 8 和 10 - 15 节以及一般性服务条款中适用的规定(包括与责任限制有关的部分)在期满或终止后继续保持有效。
11. 赔偿。您同意 Google 及其分支机构、联属机构、管理人员、代理机构和员工免受任何第三方由于您使用本服务而导致或在任何方面与之相关的索赔,您承担全部的责任并赔偿 Google 一切种类与性质的费用,包括所有索赔、损失、损害(实际和继发)、诉讼、判决、诉讼费和律师费。在这类情况下,Google 会向您提供有关此类索赔要求或诉讼的书面通知。
12. 全部协议。本协议是您与 Google 之间就使用本服务的全部协议,取代您与 Google 之前签订的所有协议。如果您使用或购买特定的其他 Google 服务、联属计划服务、第三方内容或第三方软件,可能还需要遵守其他条款。
13. 自动放弃和中止条款。 Google 若未行使或执行"服务条款"的某项权利或规定,并不构成自动放弃该权利或规定。 如果具有司法权的法院发现"服务条款"中含有无效规定,双方同意应由法院进行调解并力图体现双方要通过该规定传达的意图,"服务条款"的其他规定将继续保持完全的法律效力。
14. 法令限制。您同意,无论是由于使用 Google 服务还是与"服务条款"相关事务引发的任何违法、索赔控诉,都应在此类控诉发生后的壹 (1) 年内提交正式法律文书,否则将视为永久无效。
15. 法律选择;司法权;法庭。 在与您所居住的州或国家/地区的法律规定不相抵触的情况下,这些服务条款由加利福尼亚州的法律约束并解释。 任何由此项服务引发的索赔、法律诉讼或起诉均需在加利福尼亚州的圣克拉拉郡进行,同时您应同意该地区法院所做出的审判。
16. 版权信息。根据我们的政策,我们会回应涉嫌违反《数字千年版权法》的通知。如果您认为此项服务侵害了您的版权,请参考 http://www.google.com/blogger_dmca.html ,以获得有关如何提出申请或回应侵害通知的信息。