网站首页 站长福利 福利文章 正文
有很多网站设置了ua识别或ip识别,使得访客不可以查看网站原页面,使用php进行Curl的方式,可以查看网页源码。
<?php // 设置伪造的百度蜘蛛 UA 和 IP define('BAIDU_SPIDER_UA', 'Mozilla/5.0 (Linux; U; Android 4.4.4; zh-cn; MA5 Build/KTU84P) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/78.0.3904.108 Mobile Safari/537.36 [Baiduspider-mobile-ads]'); $ip = '116.179.32.' . rand(1, 255); // 随机生成一个 IP 地址 define('BAIDU_SPIDER_IP', $ip); // 初始化 CURL 句柄 $ch = curl_init(); // 设置请求参数和 HTTP 头信息 $url = "目标站"; $options = array( CURLOPT_URL => $url, CURLOPT_HEADER => true, // 需要包含响应头信息 CURLOPT_USERAGENT => BAIDU_SPIDER_UA, CURLOPT_HTTPHEADER => array( 'X-Forwarded-For: ' . BAIDU_SPIDER_IP, 'Accept-Encoding: gzip, deflate, br', // 保持与浏览器一致的压缩模式 ), CURLOPT_ENCODING => 'gzip, deflate, br', CURLOPT_RETURNTRANSFER => true, CURLOPT_FOLLOWLOCATION => true, // 表示可以自动跳转 ); // 执行 CURL 请求并处理响应数据 curl_setopt_array($ch, $options); $result = curl_exec($ch); if (curl_errno($ch)) { echo 'CURL 错误:' . curl_error($ch); } else { // 输出服务器返回的 HTTP 头信息和原始响应数据 $header_size = curl_getinfo($ch, CURLINFO_HEADER_SIZE); $response_headers = substr($result, 0, $header_size); $response_body = substr($result, $header_size); echo "HTTP Headers:<br>"; echo nl2br(htmlspecialchars($response_headers)) . "<br><br>"; echo "Response body:<br>"; echo nl2br(htmlspecialchars($response_body)); } // 关闭 CURL 句柄 curl_close($ch);
这段代码通过 CURL 发送一个带有特定 HTTP 头信息的 GET 请求,以模拟百度蜘蛛的访问,并输出服务器返回的 HTTP 头信息和响应数据。
其中,设置了 User-Agent 和 X-Forwarded-For 头信息来伪造百度蜘蛛的 UA 和 IP 地址,同时在 HTTP 头信息中声明 Accept-Encoding 以适应各种服务器端压缩方式。
需要注意,此代码仅用于演示如何设置 HTTP 头信息,严禁用于非法操作。
另外,百度蜘蛛的 IP 地址是可变的,如果需要精确模拟爬虫访问,需要获取最新的 IP 地址并替换 BAIDU_SPIDER_IP 常量。
必看说明
- 本站中所有被研究的素材与信息全部来源于互联网,版权争议与本站无关。
- 本站文章或仅为文本内容原创,非程序原创。如有侵权、不妥之处,请联系站长第一时间删除。敬请谅解!
- 本站所有内容严格遵守国家法律的条例,所有研究的算法技术均来源于搜索引擎公开默认允许用户研究使用的接口。
- 阅读本文及获取资源前,请确保您已充分阅读并理解《访问曹操SEO网站需知:行为准则》。
- 本站分享的任何工具、程序仅供学习参考编写架构,仅可在本地的虚拟机内断网测试,严禁联网运行或上传搭建!
- 任何资源必须在下载后24个小时内,从电脑中彻底删除。不得传播或者用于其他任何用途!否则一切后果用户自负!
- 转载请注明 : 文章转载自 站群程序 PHP代码实现使用伪造的百度蜘蛛UA和IP对目标网站进行爬取
- 本文标题:《PHP代码实现使用伪造的百度蜘蛛UA和IP对目标网站进行爬取》
- 本文链接:http://www.zqcx.cn/1992.html
猜你喜欢
- 2024-12-09 百家号批量发布软件V2.4.4
- 2024-10-06 关于SEO的一些真诚思考
- 2024-08-18 罪恶克星:不良网站举报工具填表版
- 2024-05-01 多线程批量查询百家号文章存活情况
- 2024-04-22 通过Nginx配置增强网站安全性
- 2024-04-18 多线程批量查询链接收录情况(免代理)
- 2024-04-01 CCSEO原创蜘蛛统计v1.3
- 2024-01-27 CCSEO原创蜘蛛统计v1.2
- 2024-01-26 通过伪静态实现非蜘蛛则跳转的代码
- 2023-12-15 实现IP地址屏蔽和白名单功能的php代码
你 发表评论:
欢迎- 8094℃遵纪守法:一起举报违法网址
- 7229℃警惕“冒用身份”的电信网络诈骗
- 7215℃备案域名的买卖管控会越来越严,不要尝试!
- 5100℃6月1日是《中华人民共和国网络安全法》实施五周年
- 4527℃违规事件分类与违规信息类型说明
- 4454℃关于严格遵守网络安全法规的公告
- 6440℃百度正打击构造虚假标题等违规站点
- 8176℃「百日行动」“断卡”行动持续发力
- 16125℃懒人开源站群程序V2.4.2:影视模板V2
- 15750℃通过Nginx配置增强网站安全性
- 14665℃多线程批量查询百家号文章存活情况
- 14486℃搜狐号安全系统升级通知
- 12302℃多线程批量查询链接收录情况(免代理)
- 12105℃百家号批量发布软件V1.8.5
- 11290℃企业网站安全漏洞应对:从修复到增强全方位安全新举措
- 8350℃CCSEO原创蜘蛛统计v1.3
- 12-09百家号批量发布软件V2.4.4
- 10-06关于SEO的一些真诚思考
- 08-18罪恶克星:不良网站举报工具填表版
- 05-01多线程批量查询百家号文章存活情况
- 04-22通过Nginx配置增强网站安全性
- 04-22企业网站安全漏洞应对:从修复到增强全方位安全新举措
- 04-21搜狐号安全系统升级通知
- 04-18多线程批量查询链接收录情况(免代理)
- 近期评论
- 文章归档
-
- 2024年10月 (1)
- 2024年8月 (1)
- 2024年5月 (1)
- 2024年4月 (10)
- 2024年3月 (6)
- 2024年1月 (2)
- 2023年12月 (4)
- 2023年11月 (2)
- 2023年10月 (7)
- 2023年9月 (24)
- 2023年8月 (6)
- 2023年7月 (20)
- 2023年6月 (13)
- 2023年5月 (26)
- 2023年4月 (48)
- 2023年3月 (21)
- 2023年2月 (15)
- 2023年1月 (10)
- 2022年12月 (10)
- 2022年11月 (3)
- 2022年10月 (28)
- 2022年9月 (37)
- 2022年8月 (16)
- 2022年7月 (23)
- 2022年6月 (24)
- 2022年5月 (10)
- 2022年4月 (53)
- 2022年3月 (67)
- 2022年2月 (3)
- 2022年1月 (4)
- 2021年12月 (24)
- 2021年11月 (18)
- 2021年10月 (3)
- 2021年9月 (22)
- 2021年8月 (60)
- 2021年7月 (3)
- 2021年6月 (16)
- 2021年5月 (25)
- 2021年4月 (1)
- 2021年3月 (39)
- 2021年1月 (7)
- 2020年12月 (19)
- 2020年11月 (11)
- 2020年10月 (49)
- 2020年9月 (114)
- 2020年8月 (63)
- 2020年7月 (28)
- 2020年6月 (50)
- 2020年5月 (124)
- 2020年4月 (83)
- 2020年3月 (91)
- 2020年2月 (81)
- 2020年1月 (18)
- 2019年12月 (79)
- 2019年11月 (16)
- 2019年10月 (35)
- 2019年9月 (3)
- 2017年12月 (1)
- 2017年11月 (203)
- 2017年10月 (155)
- 标签列表
- 站点信息
-
- 文章总数:2025
- 页面总数:7
- 分类总数:46
- 标签总数:339
- 评论总数:9366
- 浏览总数:5898972
已有49位网友发表了看法:
auto_ux2qzt8w 评论于 [2023-11-01 20:10:38] 回复
可以看到301屏蔽后的网站吗
秋 评论于 [2023-05-30 16:25:56] 回复
有ip 列表吗
曹操 评论于 [2023-06-01 09:35:06] 回复
蜘蛛IP段?
weikeduo222 评论于 [2023-05-28 21:14:43] 回复
不好使。
比如这个url:http://www.eduhn.shuzhiproper.top/news/MdNjB.html
尝试了很多方式,抓不到源码
访客 评论于 [2023-05-29 16:05:52] 回复
这很简单 我可以获取到呀