切换风格

Wizard Sky California Sunset glow Black Cloud Beige Dragon Lavender NewYear City Snow Flowers London
收藏本站XSS平台字符串转换jsfuck
抓取贴吧图片有点不解[复制链接]
发表于 2015-1-13 15:26:07 | 显示全部楼层 |!read_mode!
本帖最后由 mx7krshell 于 2015-1-13 15:27 编辑

学python几天,就想写个小工具来玩下

所以就随便找了个贴吧的地址:http://tieba.baidu.com/p/3017053574  里面是"金馆长逗比图片"

#!/usr/bin/python
import urllib
import re

def gethtml(url):
        page=urllib.urlopen(url)
        ccav=page.read()
        return ccav

def getimg(html):
        reg=r'src="(http://.*\d\.jpg)" pic_ext'
        imgre=re.compile(reg)
        imglist=re.findall(imgre,html)
        return imglist
        x=0
        for imgurl in imglist:
                urllib.urlretrieve(imgurl,'%s.jpg'% x)
                x+=1

html=gethtml("http://tieba.baidu.com/p/3017053574")
print getimg(html)



然后抓取:
2015-01-13 15:19:07 的屏幕截图.png

这样肯定是不全的!
因为我是看视频学的,所以我不想照着视频做! 因为那时候好几年前的!

查看了贴吧源码:
2015-01-13 15:21:07 的屏幕截图.png


现在心中还有一个疑惑,贴吧是有分页, 在抓取的时候如何跳转第2页!
因为是几天看的python或许对于某些人来说根本不值得一提,或者让我去百度! 「其实我是来添加水贴的!
其实我PHP学的真的不怎样! 才来搞python. 感觉TM好失败!





发表于 2015-2-14 10:27:41 | 显示全部楼层
第20行html=gethtml("http://tieba.baidu.com/p/3017053574")
在url后边添加?pn=2
艹,看谁更水!
发表于 2015-3-2 00:45:02 | 显示全部楼层
楼上正解!
感觉还是使用requests、BeautifualSoup模块更好些,很方便
最近也在学python,可以交流交流一起玩
发表于 2015-3-21 10:55:36 | 显示全部楼层
看看支持下

代码区

GMT+8, 2019-11-23 08:02

Powered by Discuz! X2

© 2001-2018 Comsenz Inc.

回顶部