高圆圆和俞飞鸿长的像:浅谈伪原创的方法以及防止被采集的方法

来源:百度文库 编辑:九乡新闻网 时间:2024/04/29 17:18:02
在中国现行的互联网的制度下,版权意识还并非十分的完善,前段时间闹得沸沸扬扬的“百度文库侵权事件”并不能说明中国已经跨入了版权时代,这只不过是对于大型门户站点而言,相对小型网站、个人站点而言,相互采集可谓是非常的严重,那么伪原创的方法以及防止被采集的方法的了解和学习就显得十分的必要,像诸如此类被采集事件,笔者着实碰到了不少,比如之前的一篇文章“seo之用户体验猜想”这篇文章就可谓是一波三折,最早先这篇文章是在我的博客上发布的,但是很久都并未被百度收录,情况很明显,那时候我的博客权重很低,百度蜘蛛根本没有爬过这些内容,但是隔了几天之后,我在百度搜索框搜索“seo之用户体验猜想”时,出现的是我的文章,却是在一个seo论坛上,得到这种结果的我干脆破罐破摔,去A5站长论坛把网站一发,并且注明了原创文章的博文地址,很快的,我的文章总算是算在了我的名下,但是却不属于我的博客,属于的是A5站长论坛。

应对采集的方法:有了原创文章后,现在发布在自己的站点上,然后迅速得去一些权重高的论坛,空间,收藏之类的互联网平台发布文章,留下原文链接,一般而言,在这些高权重的平台,蜘蛛通常是秒收的,这样的话,蜘蛛一般会通过发布时间来判定原创的归属问题,当然了,有的时候也会把丢失原创,但是,这样做的话绝对不会存在因为蜘蛛不抓却而错过百度的收录,即使被竞争对手采集,原创度始终是属于自己的。
现在我们来谈一谈伪原创吧。

谈到伪原创,并非是网上常用的工具来解决,现在的百度,不断的推出诸如PV,跳出率等来对网页的权重做出一定的衡量,百度对于用户的体验的看重已经是非常重视了,如果我们还采用传统的伪原创手法,近义词替换,甚至采用反义词等等等,呵呵,我想用户跳出率会非常高的,自然,这个页面的权重也不会高到哪里去。所以,即使是伪原创,我们依然需要以极高的质量来操作伪原创。

蜘蛛对比原创与否原理无外乎是对于百度数据库的信息相似度的对比,如果网上的内容与百度数据库的内容重复度达到了70%或以上,那么很显然,百度是不会收录的,那么利用这个原理,我们可以对百度根本没有抓取的页面进行采集,那么这些内容自然是可以作为我们原创内容的来源。
1.百度蜘蛛没有抓取内容:
比如说淘宝网,查看其robots:
User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /
很显然,淘宝整个屏蔽掉了百度蜘蛛,那么对于百度而言,淘宝网上的信息就是一个巨大的原创信息库。
再比如说QQ空间
# All robots will spider the domain

User-agent: *
Disallow:
Sitemap: http://qzone.qq.com/sitemap_index_qzone.xml
2.QQ用户聊天信息:
比如说在QQ群里的行业聊天信息,我们可以通过整理成为一篇原创资源。
3.互联网资源整合:

利用互联网上已经存在的资源,我们把所有的资料进行整理,造成比较全面,多样化的内容信息,其实百度百科就是互联网资源最典型的资源整合平台。
4.不同语种的转换
这种方法不能通过工具来,很多工具翻译出来不符合语法,需要人工整合。
5.用户提供
比如说用户评论,论坛活跃会员的更新等等。
6.论坛问答
通过互动(比如说问问题,搞活动等)获得用户的内容,这些也是相当不错的内容。
7.非文字信息类的信息

搜索引擎现阶段的技术只能实现识别文字,那么以图片,视频,音频等等文件出现的信息我们只需要把其转变为文字信息那么就可以把其转化成自己的原创信息。