网站首页 站群工具 内容处理工具 正文
飞鸟、战神以及零距离站群这类需要直接调用txt文档的站群程序,都可以使用下文中的PHP采集规则,亲测可以使用。
测试环境:php7.0;服务器配置:4核8G10M服务器;
提示:服务器过差时,或Nginx下,偶尔会跳504错误;
测试截图
caiji.php代码
<?php error_reporting(E_ALL^E_NOTICE^E_WARNING); ob_end_clean(); ob_implicit_flush(1); header("Content-type: text/html; charset=utf-8"); ini_set("max_execution_time", "0"); ini_set('memory_limit', '4000M'); date_default_timezone_set('Asia/Shanghai'); if (!file_exists ('data/')) { mkdir ( "data/", 0777, true ); } if (! file_exists ( 'data/juzi/' )) { mkdir ( "data/juzi/", 0777, true ); } delFile(dirname(__FILE__) . "/data/juzi/");//清空文件夹 $count = 20; //一次采集多少篇,建议不要太多 /** * 温馨提示:不要一下子采集太多,建议只采集两个地址的采集模块,不需要采集的先注释掉即可,例如:网易 */ //chinanews //getURL2(); //getcontent2(); //网易 //getURL(); //getcontent(); //人民网 //getURLpeople(); //getcontentpeople(); //深圳热线 //getURLszonline(); //getcontentszonline(); //人民政府 getURLgov(); getcontentgov(); //华龙网 //getURLcqnews(); //getcontentcqnews(); //华商新闻 //getURLhsw(); //getcontenthsw(); //深圳新闻网 //getURLsznews(); //getcontentsznews(); // //IT之家滚动新闻 //getURLithome(); //getcontentithome(); //东南网 //getURLfjsen(); //getcontentfjsen(); //温州新闻网 //getURL66wz(); //getcontent66wz(); //金羊网 //getURLycwb(); //getcontentycwb(); exit('本次采集完毕!'); /////////////////////////////////chinanews/////////////////////////////////////// function getURL2(){ $url = 'http://www.chinanews.com/scroll-news/news1.html'; preg_match_all('/class="dd_bt"><a.*?href="(.+?)">(.+?)</is',file_get_contents($url), $_array,PREG_SET_ORDER); $links = is_file('chinanews.php') ? include 'chinanews.php' : array(); foreach($_array as $k=>$v){ if(!in_array($v[1].'|0',$links) && !in_array($v[1].'|1',$links)){ if(!strpos($v[1],'/shipin/')){ $links[] = 'http:'.$v[1].'|0'; } } } if(count($links) > 5000){ unlink('chinanews.php'); }else{ setinc($links,'chinanews.php'); } } function getcontent2(){ global $count; $links = is_file('chinanews.php') ? include 'chinanews.php' : array(); if(empty($links)) return; $i = 0; foreach($links as $k=>$v){ $url = explode('|', $v); if($url[1] == '0' && $i <= $count){ $res = file_get_contents($url[0]); preg_match('/name="newstitle".*?value=\'(.+?)\'\/>/',$res,$title); $title = strToGBK($title[1]); $body = getSubstr($res,'<!--正文start-->','<!--正文start-->'); $body = preg_replace('/<script[^>]*?>.*?<\/script>/is', "", $body); $body = preg_replace('/<style[^>]*?>.*?<\/style>/is', "", $body); $body = strToGBK(strtr_words(strip_tags($body,'<p>,<br>,<img>'))); $body = strtr_words(str_replace(array("\r\n","\n"),"",trim($body))); if(!empty($title) && !empty($body) && mb_strlen($body, 'UTF-8') > 200){ file_put_contents('data/juzi/'.msectime().$i.'.txt', $title.'|||||||'.$body); } $links[$k] = $url[0].'|1'; $i++; } } setinc($links,'chinanews.php'); } /////////////////////////////////chinanews/////////////////////////////////////// /// /// /////////////////////////////////网易/////////////////////////////////////// function getURL(){ $url = 'http://news.163.com/special/0001220O/news_json.js'; $str = file_get_contents($url); $str = @iconv('GB2312','UTF-8//IGNORE',str_replace(array('var data=',';'),'',$str)); $json = json_decode($str,true); $links = is_file('163.php') ? include '163.php' : array(); foreach($json['news'][0] as $k=>$v){ if(!in_array($v['l'].'|0',$links) && !in_array($v['l'].'|1',$links)){ $links[] = $v['l'].'|0'; } } setinc($links,'163.php'); } function getcontent(){ global $count; $links = is_file('163.php') ? include '163.php' : array(); if(empty($links)) return; $i = 0; foreach($links as $k=>$v){ $url = explode('|', $v); if($url[1] == '0' && $i <= $count){ $res = iconv('gb2312','utf-8//IGNORE',file_get_contents($url[0])); $title = strToGBK(getSubstr($res,'<h1>','</h1>')); preg_match('/id="endText".*?>(.+?)<div class="post_btmshare">/is', $res,$b); $body = preg_replace('/<script[^>]*?>.*?<\/script>/is', "", $b[1]); $body = preg_replace('/<style[^>]*?>.*?<\/style>/is', "", $body); $body = preg_replace('/<!--.*?-->/is', "", $body); $body = strToGBK(strip_tags($body,'<p>,<br>,<img>')); $body = strtr_words(str_replace(array("\r\n","\n"),"",trim($body))); if(!empty($title) && !empty($body) && mb_strlen($body, 'UTF-8') > 200){ file_put_contents('data/juzi/'.msectime().$i.'.txt', $title.'|||||||'.$body); } $links[$k] = $url[0].'|1'; $i++; } } if(count($links) > 5000){ unlink('163.php'); }else{ setinc($links,'163.php'); } } /////////////////////////////////网易/////////////////////////////////////// /// /// /////////////////////////////////人民网/////////////////////////////////////// function getURLpeople(){ $url = 'http://news.people.com.cn/210801/211150/index.js'; $str = file_get_contents($url); $json = json_decode($str,true); $links = is_file('people.php') ? include 'people.php' : array(); foreach($json['items'] as $k=>$v){ if(!in_array($v['url'].'|0',$links) && !in_array($v['url'].'|1',$links)){ $links[] = $v['url'].'|0'; } } setinc($links,'people.php'); } function getcontentpeople(){ global $count; $links = is_file('people.php') ? include 'people.php' : array(); if(empty($links)) return; $i = 0; foreach($links as $k=>$v){ $url = explode('|', $v); if($url[1] == '0' && $i <= $count){ $res = iconv('gb2312','utf-8//IGNORE',file_get_contents($url[0])); $title = strToGBK(getSubstr($res,'<h1>','</h1>')); preg_match('/text left-->(.+?)<div class="zdfy clearfix">/is', $res,$b); $body = preg_replace('/<script[^>]*?>.*?<\/script>/is', "", $b[1]); $body = preg_replace('/<style[^>]*?>.*?<\/style>/is', "", $body); $body = preg_replace('/<!--.*?-->/is', "", $body); $body = strToGBK(strip_tags($body,'<p>,<br>,<img>')); $body = strtr_words(str_replace(array("\r\n","\n"),"",trim($body))); if(!empty($title) && !empty($body) && mb_strlen($body, 'UTF-8') > 200){ file_put_contents('data/juzi/'.msectime().$i.'.txt', $title.'|||||||'.$body); } $links[$k] = $url[0].'|1'; $i++; } } if(count($links) > 5000){ unlink('people.php'); }else{ setinc($links,'people.php'); } } /////////////////////////////////人民网/////////////////////////////////////// /// /// /////////////////////////////////深圳热线/////////////////////////////////////// function getURLszonline(){ $url = 'http://pinpai.szonline.net/gundongxinwen/'; $str = file_get_contents($url); preg_match_all('/ref="(.+?)"/is', getSubstr($str,'<ul>','</ul>'),$b); $links = is_file('szonline.php') ? include 'szonline.php' : array(); foreach($b[1] as $k=>$v){ if(!in_array($v.'|0',$links) && !in_array($v.'|1',$links)){ $links[] = $v.'|0'; } } setinc($links,'szonline.php'); } function getcontentszonline(){ global $count; $links = is_file('szonline.php') ? include 'szonline.php' : array(); if(empty($links)) return; $i = 0; foreach($links as $k=>$v){ $url = explode('|', $v); if($url[1] == '0' && $i <= $count){ $res = file_get_contents($url[0]); $title = strToGBK(getSubstr($res,'<h2>','</h2>')); preg_match('/class="content-imfomation">(.+?)<!--分页-->/is', $res,$b); $body = preg_replace('/<script[^>]*?>.*?<\/script>/is', "", $b[1]); $body = preg_replace('/<style[^>]*?>.*?<\/style>/is', "", $body); $body = preg_replace('/<!--.*?-->/is', "", $body); $body = strToGBK(strip_tags($body,'<p>,<br>,<img>')); $body = strtr_words(str_replace(array("\r\n","\n"),"",trim($body))); if(!empty($title) && !empty($body) && mb_strlen($body, 'UTF-8') > 200){ file_put_contents('data/juzi/'.msectime().$i.'.txt', $title.'|||||||'.$body); } $links[$k] = $url[0].'|1'; $i++; } } if(count($links) > 5000){ unlink('szonline.php'); }else{ setinc($links,'szonline.php'); } } /////////////////////////////////深圳热线/////////////////////////////////////// /// /// /////////////////////////////////人民政府/////////////////////////////////////// function getURLgov(){ $url = 'http://www.gov.cn/xinwen/gundong.htm'; $str = file_get_contents($url); preg_match_all('/<h4>.*?href="(.+?)"/is', getSubstr($str,'<ul>','</ul>'),$b); $links = is_file('gov.php') ? include 'gov.php' : array(); foreach($b[1] as $k=>$v){ $v = 'http://www.gov.cn'.$v; if(!in_array($v.'|0',$links) && !in_array($v.'|1',$links)){ $links[] = $v.'|0'; } } setinc($links,'gov.php'); } function getcontentgov(){ global $count; $links = is_file('gov.php') ? include 'gov.php' : array(); if(empty($links)) return; $i = 0; foreach($links as $k=>$v){ $url = explode('|', $v); if($url[1] == '0' && $i <= $count){ $res = file_get_contents($url[0]); $title = strToGBK(str_replace(array("\r\n","\n"," "),"",getSubstr($res,'<h1>','</h1>'))); preg_match('/id="UCAP-CONTENT">(.+?)<div class="editor">/is', $res,$b); $body = preg_replace('/<script[^>]*?>.*?<\/script>/is', "", $b[1]); $body = preg_replace('/<style[^>]*?>.*?<\/style>/is', "", $body); $body = preg_replace('/<!--.*?-->/is', "", $body); $body = strToGBK(strip_tags($body,'<p>,<br>,<img>')); $body = strtr_words(str_replace(array("\r\n","\n"),"",trim($body))); if(!empty($title) && !empty($body) && mb_strlen($body, 'UTF-8') > 200){ file_put_contents('data/juzi/'.msectime().$i.'.txt', $title.'|||||||'.$body); } $links[$k] = $url[0].'|1'; $i++; } } if(count($links) > 5000){ unlink('gov.php'); }else{ setinc($links,'gov.php'); } } /////////////////////////////////人民政府/////////////////////////////////////// /// /// /////////////////////////////////华龙网/////////////////////////////////////// function getURLcqnews(){ $url = 'http://news.cqnews.net/rollnews/'; $str = file_get_contents($url); preg_match_all('/href="(.+?)"/is', getSubstr($str,'id="content">','class=\'pages\''),$b); $links = is_file('cqnews.php') ? include 'cqnews.php' : array(); foreach($b[1] as $k=>$v){ if(!in_array($v.'|0',$links) && !in_array($v.'|1',$links)){ $links[] = $v.'|0'; } } setinc($links,'cqnews.php'); } function getcontentcqnews(){ global $count; $links = is_file('cqnews.php') ? include 'cqnews.php' : array(); if(empty($links)) return; $i = 0; foreach($links as $k=>$v){ $url = explode('|', $v); if($url[1] == '0' && $i <= $count){ $res = file_get_contents($url[0]); $title = strToGBK(str_replace(array("\r\n","\n"," "),"",getSubstr($res,'<h1 class="bigtitle">','</h1>'))); preg_match('/id="_h5_content" class="main_text">(.+?)<\/article>/is', $res,$b); $body = preg_replace('/<script[^>]*?>.*?<\/script>/is', "", $b[1]); $body = preg_replace('/<style[^>]*?>.*?<\/style>/is', "", $body); $body = preg_replace('/<!--.*?-->/is', "", $body); $body = strToGBK(strip_tags($body,'<p>,<br>,<img>')); $body = strtr_words(str_replace(array("\r\n","\n"),"",trim($body))); if(!empty($title) && !empty($body) && mb_strlen($body, 'UTF-8') > 200){ file_put_contents('data/juzi/'.msectime().$i.'.txt', $title.'|||||||'.$body); } $links[$k] = $url[0].'|1'; $i++; } } if(count($links) > 5000){ unlink('cqnews.php'); }else{ setinc($links,'cqnews.php'); } } /////////////////////////////////华龙网/////////////////////////////////////// /// /// /////////////////////////////////华商新闻/////////////////////////////////////// function getURLhsw(){ $url = 'http://news.hsw.cn/sx08/sxgd/'; $str = file_get_contents($url); preg_match_all('/href="(.+?)"/is', getSubstr($str,'<ul class="list">','class="page">'),$b); $links = is_file('hsw.php') ? include 'hsw.php' : array(); foreach($b[1] as $k=>$v){ if(!in_array($v.'|0',$links) && !in_array($v.'|1',$links)){ $links[] = $v.'|0'; } } setinc($links,'hsw.php'); } function getcontenthsw(){ global $count; $links = is_file('hsw.php') ? include 'hsw.php' : array(); if(empty($links)) return; $i = 0; foreach($links as $k=>$v){ $url = explode('|', $v); if($url[1] == '0' && $i <= $count){ $res = file_get_contents($url[0]); $title = strToGBK(str_replace(array("\r\n","\n"," "),"",getSubstr($res,'<h1>','</h1>'))); preg_match('/http:\/\/news.hsw.cn\/system\/.*?\/.*?\/(.+?)\.shtml/is',$url[0],$u); $body = file_get_contents('http://tags.hsw.cn/api.php?op=allcontent&catid=367&id='.$u[1]); $body = preg_replace('/<script[^>]*?>.*?<\/script>/is', "", $body); $body = preg_replace('/<style[^>]*?>.*?<\/style>/is', "", $body); $body = preg_replace('/<!--.*?-->/is', "", $body); $body = strToGBK(strip_tags($body,'<p>,<br>,<img>')); $body = strtr_words(str_replace(array("\r\n","\n"),"",trim($body))); if(!empty($title) && !empty($body) && mb_strlen($body, 'UTF-8') > 200){ file_put_contents('data/juzi/'.msectime().$i.'.txt', $title.'|||||||'.$body); } $links[$k] = $url[0].'|1'; $i++; } } if(count($links) > 5000){ unlink('hsw.php'); }else{ setinc($links,'hsw.php'); } } /////////////////////////////////华商新闻/////////////////////////////////////// /// /// /////////////////////////////////深圳新闻网/////////////////////////////////////// function getURLsznews(){ $url = 'http://news.sznews.com/node_150127.htm'; $str = file_get_contents($url); preg_match_all('/href="(.+?)"/is', getSubstr($str,'class="listw mt10">','class=\'pages\'>'),$b); $b[1] = array_unique($b[1]); $links = is_file('sznews.php') ? include 'sznews.php' : array(); foreach($b[1] as $k=>$v){ if(!in_array($v.'|0',$links) && !in_array($v.'|1',$links)){ $links[] = $v.'|0'; } } setinc($links,'sznews.php'); } function getcontentsznews(){ global $count; $links = is_file('sznews.php') ? include 'sznews.php' : array(); if(empty($links)) return; $i = 0; foreach($links as $k=>$v){ $url = explode('|', $v); if($url[1] == '0' && $i <= $count){ $res = file_get_contents($url[0]); $title = strToGBK(str_replace(array("\r\n","\n"," "),"",getSubstr($res,'<h1 class="h1-news">','</h1>'))); preg_match('/<!-- Start:article -->(.+?)<!--\/enpcontent-->/is', $res,$b); $body = preg_replace('/<script[^>]*?>.*?<\/script>/is', "", $b[1]); $body = preg_replace('/<style[^>]*?>.*?<\/style>/is', "", $body); $body = preg_replace('/<!--.*?-->/is', "", $body); $body = strToGBK(strip_tags($body,'<p>,<br>,<img>')); $body = strtr_words(str_replace(array("\r\n","\n"),"",trim($body))); if(!empty($title) && !empty($body) && mb_strlen($body, 'UTF-8') > 200){ file_put_contents('data/juzi/'.msectime().$i.'.txt', $title.'|||||||'.$body); } $links[$k] = $url[0].'|1'; $i++; } } if(count($links) > 5000){ unlink('sznews.php'); }else{ setinc($links,'sznews.php'); } } /////////////////////////////////深圳新闻网/////////////////////////////////////// /// /// /////////////////////////////////IT之家滚动新闻/////////////////////////////////////// function getURLithome(){ $url = 'https://www.ithome.com/list/'; $str = file_get_contents($url); preg_match_all('/<\/strong>.*?href="(.+?)"/is', getSubstr($str,'class="ulcl">','</ul>'),$b); $links = is_file('ithome.php') ? include 'ithome.php' : array(); foreach($b[1] as $k=>$v){ if(!in_array($v.'|0',$links) && !in_array($v.'|1',$links)){ $links[] = $v.'|0'; } } setinc($links,'ithome.php'); } function getcontentithome(){ global $count; $links = is_file('ithome.php') ? include 'ithome.php' : array(); if(empty($links)) return; $i = 0; foreach($links as $k=>$v){ $url = explode('|', $v); if($url[1] == '0' && $i <= $count){ $res = file_get_contents($url[0]); $title = strToGBK(str_replace(array("\r\n","\n"," "),"",getSubstr($res,'<h1>','</h1>'))); preg_match('/id="paragraph">(.+?)<div class="con-recom adblock">/is', $res,$b); $body = preg_replace('/<script[^>]*?>.*?<\/script>/is', "", $b[1]); $body = preg_replace('/<style[^>]*?>.*?<\/style>/is', "", $body); $body = preg_replace('/<!--.*?-->/is', "", $body); $body = strToGBK(strip_tags($body,'<p>,<br>,<img>')); $body = strtr_words(str_replace(array("\r\n","\n"),"",trim($body))); if(!empty($title) && !empty($body) && mb_strlen($body, 'UTF-8') > 200){ file_put_contents('data/juzi/'.msectime().$i.'.txt', $title.'|||||||'.$body); } $links[$k] = $url[0].'|1'; $i++; } } if(count($links) > 5000){ unlink('ithome.php'); }else{ setinc($links,'ithome.php'); } } /////////////////////////////////IT之家滚动新闻/////////////////////////////////////// /// /// /////////////////////////////////东南网/////////////////////////////////////// function getURLfjsen(){ $url = 'http://news.fjsen.com/RollingNews.htm'; $str = file_get_contents($url); preg_match_all('/href="http:\/\/www.fjsen.com\/(.+?)"/is', getSubstr($str,'class="list_page">','id="displaypagenum"'),$b); $links = is_file('fjsen.php') ? include 'fjsen.php' : array(); foreach($b[1] as $k=>$v){ $v = 'http://www.fjsen.com/' . $v; if(!in_array($v.'|0',$links) && !in_array($v.'|1',$links)){ $links[] = $v.'|0'; } } setinc($links,'fjsen.php'); } function getcontentfjsen(){ global $count; $links = is_file('fjsen.php') ? include 'fjsen.php' : array(); if(empty($links)) return; $i = 0; foreach($links as $k=>$v){ $url = explode('|', $v); if($url[1] == '0' && $i <= $count){ $res = file_get_contents($url[0]); $title = strToGBK(str_replace(array("\r\n","\n"," "),"",getSubstr($res,'<h1>','</h1>'))); preg_match('/class="zw">(.+?)<!--\/enpcontent-->/is', $res,$b); $body = preg_replace('/<script[^>]*?>.*?<\/script>/is', "", $b[1]); $body = preg_replace('/<style[^>]*?>.*?<\/style>/is', "", $body); $body = preg_replace('/<!--.*?-->/is', "", $body); $body = strToGBK(strip_tags($body,'<p>,<br>,<img>')); $body = strtr_words(str_replace(array("\r\n","\n"),"",trim($body))); if(!empty($title) && !empty($body) && mb_strlen($body, 'UTF-8') > 200){ file_put_contents('data/juzi/'.msectime().$i.'.txt', $title.'|||||||'.$body); } $links[$k] = $url[0].'|1'; $i++; } } if(count($links) > 5000){ unlink('fjsen.php'); }else{ setinc($links,'fjsen.php'); } } /////////////////////////////////东南网/////////////////////////////////////// /// /// /////////////////////////////////温州新闻网/////////////////////////////////////// function getURL66wz(){ $url = 'http://news.66wz.com/roll/'; $str = file_get_contents($url); preg_match_all('/href="(.+?)"/is', getSubstr($str,'class="newslist">','</ul>'),$b); $links = is_file('66wz.php') ? include '66wz.php' : array(); foreach($b[1] as $k=>$v){ if(!in_array($v.'|0',$links) && !in_array($v.'|1',$links)){ $links[] = $v.'|0'; } } setinc($links,'66wz.php'); } function getcontent66wz(){ global $count; $links = is_file('66wz.php') ? include '66wz.php' : array(); if(empty($links)) return; $i = 0; foreach($links as $k=>$v){ $url = explode('|', $v); if($url[1] == '0' && $i <= $count){ $res = iconv('gb2312','utf-8//IGNORE',file_get_contents($url[0])); $title = strToGBK(str_replace(array("\r\n","\n"," "),"",getSubstr($res,'id="artibodytitle">','</h1>'))); preg_match('/id="artibody">(.+?)<!--enorth/is', $res,$b); $body = preg_replace('/<script[^>]*?>.*?<\/script>/is', "", $b[1]); $body = preg_replace('/<style[^>]*?>.*?<\/style>/is', "", $body); $body = preg_replace('/<!--.*?-->/is', "", $body); $body = strToGBK(strip_tags($body,'<p>,<br>,<img>')); $body = strtr_words(str_replace(array("\r\n","\n"),"",trim($body))); if(!empty($title) && !empty($body) && mb_strlen($body, 'UTF-8') > 200){ file_put_contents('data/juzi/'.msectime().$i.'.txt', $title.'|||||||'.$body); } $links[$k] = $url[0].'|1'; $i++; } } if(count($links) > 5000){ unlink('66wz.php'); }else{ setinc($links,'66wz.php'); } } /////////////////////////////////温州新闻网/////////////////////////////////////// /// /// /////////////////////////////////金羊网/////////////////////////////////////// function getURLycwb(){ $url = 'http://news.ycwb.com/n_gd_jd.htm'; $str = file_get_contents($url); preg_match_all('/href="(.+?)"/is', getSubstr($str,'class="lists-box"','</ul>'),$b); $links = is_file('ycwb.php') ? include 'ycwb.php' : array(); foreach($b[1] as $k=>$v){ if(!in_array($v.'|0',$links) && !in_array($v.'|1',$links)){ $links[] = $v.'|0'; } } setinc($links,'ycwb.php'); } function getcontentycwb(){ global $count; $links = is_file('ycwb.php') ? include 'ycwb.php' : array(); if(empty($links)) return; $i = 0; foreach($links as $k=>$v){ $url = explode('|', $v); if($url[1] == '0' && $i <= $count){ $res = file_get_contents($url[0]); $title = strToGBK(str_replace(array("\r\n","\n"," "),"",getSubstr($res,'<title>','</title>'))); preg_match('/<!-- 正文 :: START -->(.+?)<!-- 正文 :: ENDED -->/is', $res,$b); $body = preg_replace('/<script[^>]*?>.*?<\/script>/is', "", $b[1]); $body = preg_replace('/<style[^>]*?>.*?<\/style>/is', "", $body); $body = preg_replace('/<!--.*?-->/is', "", $body); $body = strToGBK(strip_tags($body,'<p>,<br>,<img>')); $body = strtr_words(str_replace(array("\r\n","\n"),"",trim($body))); if(!empty($title) && !empty($body) && mb_strlen($body, 'UTF-8') > 200){ file_put_contents('data/juzi/'.msectime().$i.'.txt', $title.'|||||||'.$body); } $links[$k] = $url[0].'|1'; $i++; } } if(count($links) > 5000){ unlink('ycwb.php'); }else{ setinc($links,'ycwb.php'); } } /////////////////////////////////金羊网/////////////////////////////////////// function msectime() { list($msec, $sec) = explode(' ', microtime()); $msectime = (float)sprintf('%.0f', (floatval($msec) + floatval($sec)) * 1000); return $msectime; } function getSubstr($str, $leftStr, $rightStr) { $t1 = mb_strpos($str,$leftStr)+mb_strlen($leftStr); $str = mb_substr($str,$t1); $t2 = mb_strpos($str,$rightStr); return $s = mb_substr($str,0,$t2); } function setinc($data,$file){ $setfile = $file; $settingstr="<?php \t\n return array(\n"; foreach($data as $key=>$v){ $settingstr.="\t'".$key."'=>'".$v."',\n"; } $settingstr.=");\n?>\n"; file_put_contents($setfile,$settingstr); } function strToGBK($strText) { $encode = mb_detect_encoding($strText, array('UTF-8','UTF-8','UTF-8')); if($encode !== "UTF-8") { return @iconv('UTF-8','UTF-8//IGNORE',$strText); } else { return $strText; } } function strtr_words($str) { $words=array(); $content = file_get_contents('wei.txt');//词库 $content = str_replace( "\r", "",$content); $content = preg_split('/\n/', $content, -1, PREG_SPLIT_NO_EMPTY);//\n分割字符 foreach($content as $k=>$v) { if($k!=0) { $str_data = explode(',',$v);//关键词分割符 $words+= array("$str_data[0]"=>"$str_data[1]"); } } return strtr($str,$words);//返回结果 } function delFile($dirName){ if(file_exists($dirName) && $handle=opendir($dirName)){ while(false!==($item = readdir($handle))){ if($item!= "." && $item != ".."){ if(file_exists($dirName.'/'.$item) && is_dir($dirName.'/'.$item)){ delFile($dirName.'/'.$item); }else{ unlink($dirName.'/'.$item); } } } closedir( $handle); } }
目录导航
测试截图
caiji.php代码
- 上一篇: 倒计时跳出网站的JS代码
- 下一篇: 百度mip自动推送的PHP代码
必看说明
- 本站中所有被研究的素材与信息全部来源于互联网,版权争议与本站无关。
- 本站文章或仅为文本内容原创,非程序原创。如有侵权、不妥之处,请联系站长第一时间删除。敬请谅解!
- 本站所有内容严格遵守国家法律的条例,所有研究的算法技术均来源于搜索引擎公开默认允许用户研究使用的接口。
- 阅读本文及获取资源前,请确保您已充分阅读并理解《访问曹操SEO网站需知:行为准则》。
- 本站分享的任何工具、程序仅供学习参考编写架构,仅可在本地的虚拟机内断网测试,严禁联网运行或上传搭建!
- 任何资源必须在下载后24个小时内,从电脑中彻底删除。不得传播或者用于其他任何用途!否则一切后果用户自负!
- 转载请注明 : 文章转载自 站群程序 可用的新闻采集caiji.php规则
- 本文标题:《可用的新闻采集caiji.php规则》
- 本文链接:http://www.zqcx.cn/808.html
猜你喜欢
- 2023-05-26 承接模板定制、程序开发
- 2023-03-23 简易文章内容采集工具
- 2023-03-02 解决科普一下泛二级程序采集的问题
- 2023-03-02 曹操采集新闻标题及内容工具
- 2022-11-26 年末岁初,提防骗子,小心冒用账号诈骗!
- 2022-10-04 泛目录模板:移动影视单页
- 2022-10-04 泛目录模板:自使用网址导航页
- 2022-10-04 泛目录模板:城际分类导航页
- 2021-01-13 pyhton新浪采集源码
- 2020-06-13 小旋风蜘蛛池/泛目录采集规则接受定制
你 发表评论:
欢迎- 8094℃遵纪守法:一起举报违法网址
- 7229℃警惕“冒用身份”的电信网络诈骗
- 7215℃备案域名的买卖管控会越来越严,不要尝试!
- 5100℃6月1日是《中华人民共和国网络安全法》实施五周年
- 4527℃违规事件分类与违规信息类型说明
- 4454℃关于严格遵守网络安全法规的公告
- 6440℃百度正打击构造虚假标题等违规站点
- 8176℃「百日行动」“断卡”行动持续发力
- 16125℃懒人开源站群程序V2.4.2:影视模板V2
- 15750℃通过Nginx配置增强网站安全性
- 14665℃多线程批量查询百家号文章存活情况
- 14486℃搜狐号安全系统升级通知
- 12302℃多线程批量查询链接收录情况(免代理)
- 12105℃百家号批量发布软件V1.8.5
- 11290℃企业网站安全漏洞应对:从修复到增强全方位安全新举措
- 8350℃CCSEO原创蜘蛛统计v1.3
- 12-09百家号批量发布软件V2.4.4
- 10-06关于SEO的一些真诚思考
- 08-18罪恶克星:不良网站举报工具填表版
- 05-01多线程批量查询百家号文章存活情况
- 04-22通过Nginx配置增强网站安全性
- 04-22企业网站安全漏洞应对:从修复到增强全方位安全新举措
- 04-21搜狐号安全系统升级通知
- 04-18多线程批量查询链接收录情况(免代理)
- 近期评论
- 文章归档
-
- 2024年10月 (1)
- 2024年8月 (1)
- 2024年5月 (1)
- 2024年4月 (10)
- 2024年3月 (6)
- 2024年1月 (2)
- 2023年12月 (4)
- 2023年11月 (2)
- 2023年10月 (7)
- 2023年9月 (24)
- 2023年8月 (6)
- 2023年7月 (20)
- 2023年6月 (13)
- 2023年5月 (26)
- 2023年4月 (48)
- 2023年3月 (21)
- 2023年2月 (15)
- 2023年1月 (10)
- 2022年12月 (10)
- 2022年11月 (3)
- 2022年10月 (28)
- 2022年9月 (37)
- 2022年8月 (16)
- 2022年7月 (23)
- 2022年6月 (24)
- 2022年5月 (10)
- 2022年4月 (53)
- 2022年3月 (67)
- 2022年2月 (3)
- 2022年1月 (4)
- 2021年12月 (24)
- 2021年11月 (18)
- 2021年10月 (3)
- 2021年9月 (22)
- 2021年8月 (60)
- 2021年7月 (3)
- 2021年6月 (16)
- 2021年5月 (25)
- 2021年4月 (1)
- 2021年3月 (39)
- 2021年1月 (7)
- 2020年12月 (19)
- 2020年11月 (11)
- 2020年10月 (49)
- 2020年9月 (114)
- 2020年8月 (63)
- 2020年7月 (28)
- 2020年6月 (50)
- 2020年5月 (124)
- 2020年4月 (83)
- 2020年3月 (91)
- 2020年2月 (81)
- 2020年1月 (18)
- 2019年12月 (79)
- 2019年11月 (16)
- 2019年10月 (35)
- 2019年9月 (3)
- 2017年12月 (1)
- 2017年11月 (203)
- 2017年10月 (155)
- 标签列表
- 站点信息
-
- 文章总数:2025
- 页面总数:7
- 分类总数:46
- 标签总数:339
- 评论总数:9366
- 浏览总数:5898972
本文暂时没有评论,来添加一个吧(●'◡'●)