GreenBrowser 论坛


 
标题: [交流] 如何查找过滤规则 实例三
  本主题由 laikaixin 于 2011-9-23 21:12 加入精华 
laikaixin (来开心)
版主
Rank: 10Rank: 10Rank: 10


GreenBrowser专家   论坛热心贡献奖  
UID 14719
精华 5
积分 11299
帖子 4951
阅读权限 200
注册 2008-3-22
状态 离线
发表于 2011-9-23 20:59  资料 文集 短消息 
如何查找过滤规则 实例三

本期以wl00560提供的PHP爱好者为例,演示在ViewPage插件失效的情况下使用GetPageSizePageDependencies插件查找过滤规则。

1、打开网页后会自动弹出两个窗口


图片附件: [弹窗广告] 弹窗.png (2011-9-23 20:59, 21.04 K)



2、观察网页,发现广告较多,使用“快捷菜单”观察广告图片及地址,归纳起来有三类:
     a.网站本身提供的网站;
     b.百度提供的广告;
     c.Google提供的广告。



图片附件: [广告1] 广告1.png (2011-9-23 20:59, 21.24 K)



图片附件: [广告2] 广告2.png (2011-9-23 20:59, 15.29 K)



图片附件: [广告3] Google广告1.png (2011-9-23 20:59, 5.51 K)



图片附件: [广告4] Google广告2.png (2011-9-23 20:59, 128.2 K)



图片附件: [广告5] 百度广告.png (2011-9-23 20:59, 109.91 K)



3、使用ViewPage会在打开一个空白的窗口,并且状态栏左下角提示:运行脚本错误!


图片附件: [运行脚本错误] 运行脚本错误.png (2011-9-23 20:59, 1.75 K)



4、使用GetPageSize插件(PageDependencies也可,本文用GetPageSize演示)分析网页


图片附件: [分析页面] 分析页面.png (2011-9-23 20:59, 28.09 K)



5、发现一些图片及js脚本文件。
页面上部图片广告地址中都有sponsors字段,这个词英文意思有赞助商、主办单位的意思,因此可以判断该目录下为广告投入商投入的广告,使用*/sponsors/*过滤即可。
百度与Google广告有js脚本文件对应,过滤相应的脚本文件即可,分别为:
http://cpro.baidu.com/*
*/pagead/*

6、图片广告解决了,下面解决弹出广告,通过观察页面分析结果,发现另外几个外部地址,查看根地址发现为广告联盟网站。
*/union/*、*/ylunion/*、*/100fenlm/*添加到内容过滤后刷新页面,发现终于没有弹窗了。



图片附件: [广告网站1] 广告网站1.png (2011-9-23 20:59, 13.3 K)



图片附件: [广告网站2] 广告网站2.png (2011-9-23 20:59, 9.62 K)



7、因此这个网站的过滤过则为:

*/sponsors/*
http://cpro.baidu.com/*
*/pagead/*
*/union/*
*/ylunion/*
*/100fenlm/*


小结:
结合实例一、实例二中的方法,可以找到绝大多数的网站广告过滤规则。
核心就是通过各种方法找到相应的脚本文件,然后提取关键词,制定过滤规则。

附:
如何查找过滤规则 实例一
如何查找过滤规则 实例二

相关插件下载:
GetPageSize:http://down.5igb.com/PlugIn/GetPageSize.zip
PageDependencies:http://down.5igb.com/PlugIn/PageDependencies.zip

[ 本帖最后由 laikaixin 于 2011-10-5 13:57 编辑 ]
顶部
wl00560
大学三年级
Rank: 9Rank: 9Rank: 9



UID 37730
精华 0
积分 1773
帖子 489
阅读权限 200
注册 2011-3-17
状态 离线
发表于 2011-9-23 22:58  资料 短消息 
谢谢,这个插件也挺不错,学了一招……
其实我更关注的是弹出窗口,页面广告我还能忍受一点,呵呵……
顶部
wl00560
大学三年级
Rank: 9Rank: 9Rank: 9



UID 37730
精华 0
积分 1773
帖子 489
阅读权限 200
注册 2011-3-17
状态 离线
发表于 2011-9-23 23:01  资料 短消息 
像有个坛友说的那样,哪位大侠能找齐这些广告联盟的网址,一下封了,就安静了……
顶部
ssyknuwyg
大学二年级
Rank: 9Rank: 9Rank: 9



UID 114
精华 1
积分 1494
帖子 1244
阅读权限 200
注册 2006-12-24
状态 离线
发表于 2011-9-24 07:45  资料 短消息 
其实很简单,外站的先过滤了再说,十有八九是广告脚本,如果还有那就本站脚本慢慢找吧,再过滤不了,那就是直接链接或者页面脚本,前者简单,后者gb没招

[ 本帖最后由 ssyknuwyg 于 2011-9-24 07:46 编辑 ]

本帖最近评分记录
laikaixin   2011-9-24 08:22  鼓励加分  +5   我很赞同
顶部
ssyknuwyg
大学二年级
Rank: 9Rank: 9Rank: 9



UID 114
精华 1
积分 1494
帖子 1244
阅读权限 200
注册 2006-12-24
状态 离线
发表于 2011-9-24 07:47  资料 短消息 
PageDependencies相对简单明了些
顶部
ixc
小学三年级
Rank: 3Rank: 3



UID 39099
精华 0
积分 35
帖子 15
阅读权限 30
注册 2011-9-9
状态 离线
发表于 2011-9-24 11:55  资料 短消息 
有个地方很奇怪,

像新浪用 d*.sina.com.cn/* 一点效果也没.

http://d*.sina.com.cn/* 就能完全过滤广告.

那么,过滤规则要不要都加上http:// . 加与不加都底有什么区别??
顶部
vnskys
大学三年级
Rank: 9Rank: 9Rank: 9


UID 15826
精华 19
积分 1706
帖子 958
阅读权限 200
注册 2008-5-4
状态 离线
发表于 2011-9-24 15:41  资料 短消息 
回复 #5 ssyknuwyg 的帖子

顶,PageDependencies的确更有效。
不过对于xml都无效分析
顶部
vnskys
大学三年级
Rank: 9Rank: 9Rank: 9


UID 15826
精华 19
积分 1706
帖子 958
阅读权限 200
注册 2008-5-4
状态 离线
发表于 2011-9-24 15:43  资料 短消息 
回复 #6 ixc 的帖子

1.GB过滤规则不支持正则表达式
2.没有“d*.sina.com.cn/*”这种规则,加不加http和“d*.sina.com.cn/*”与“*d*.sina.com.cn/*”的区别同理。
3.新浪的过滤规则“http://d*.sina.com.cn/* ”对新浪下载存在严重误过滤
顶部
john19820
初中三年级
Rank: 7Rank: 7Rank: 7


UID 37696
精华 5
积分 375
帖子 144
阅读权限 100
注册 2011-3-14
状态 离线
发表于 2011-9-24 18:22  资料 短消息 
回复 #8 vnskys 的帖子

这种帖子主要看方法~要说全了太费时间
顶部
laikaixin (来开心)
版主
Rank: 10Rank: 10Rank: 10


GreenBrowser专家   论坛热心贡献奖  
UID 14719
精华 5
积分 11299
帖子 4951
阅读权限 200
注册 2008-3-22
状态 离线
发表于 2011-9-24 19:42  资料 文集 短消息 
回复 #5 ssyknuwyg 的帖子 回复 #8 vnskys 的帖子

选用GetPageSize的主要原因是分析出来的地址都是连接形式,可以直接使用快捷菜单进行下一步操作。
其次,分析出来的页面信息在当前页面,方便与页面中对照。
PageDependencies分析出来的页面信息会在新页面中打开,而且不是链接形式,不方便下一步操作。
顶部
 


当前时区 GMT+8, 现在时间是 2020-7-5 08:52
苏ICP备07001345号

    本论坛支付平台由支付宝提供
携手打造安全诚信的交易社区 Powered by Discuz! 5.0.0  © 2001-2006 Comsenz Inc.
Processed in 0.051845 second(s), 8 queries

清除 Cookies - 联系我们 - 5iGB.com - Archiver