切换风格

Wizard Sky California Sunset glow Black Cloud Beige Dragon Lavender NewYear City Snow Flowers London
收藏本站XSS平台字符串转换jsfuck
写一个python抓取网页内容的脚本[复制链接]
发表于 2014-3-27 19:40:46 | 显示全部楼层 |!read_mode!
    网站是已经输出内容的  我想写一个脚本  爬行获取网页内容保存为本地文本,内容已经输出了 不是向数据库查询 通过改变ID来遍历下面的  因为网页每次输出的内容不一样   反正格式不是很好   麻烦各位水能写个示例
发表于 2014-3-27 20:25:23 | 显示全部楼层
这。。。。网上不一大堆么   都不合适?哪里不合适?
发表于 2014-3-28 10:52:35 | 显示全部楼层
店小二01 发表于 2014-3-27 20:25
这。。。。网上不一大堆么   都不合适?哪里不合适?

   特就是不合适- -  你找一个贴出来玩看一下    我心思你能明白我的意思呢
发表于 2014-3-28 21:11:02 | 显示全部楼层

import os
import sys
import urllib
import time
t1=time.time()
print ">>> Start..."
j=0
for i in range(0,5):
    url='http://www.dzx2.com/info.php?id='+str(i)
    require=urllib.urlopen(url).read()
    path=os.getcwd()+"\\tmp\\"+str(i)+".html"
    fp=open(path,'w')
    fp.write(require)
    fp.close
t2=time.time()-t1
print ">>> Done..."
print ">>> Totle time: "+str(round(t2,2))+" S"


www.dzx2.com/info.php是我测试用的,改成你需要的
0,5是循环5次,你可以改为5个亿
同级目录下需建立tmp文件夹用来存放保存的文件

操千曲而后晓声,观千剑而后识器。
发表于 2014-3-29 11:45:45 | 显示全部楼层
店小二01 发表于 2014-3-28 21:11

[mw_shl_code=python,true]import os
import sys

玛德看不懂  我得看python了  东西搞定了  

代码区

GMT+8, 2019-9-17 04:32

Powered by Discuz! X2

© 2001-2018 Comsenz Inc.

回顶部