按楼号保存图片!用python怎么实现?
我要把k68上2128号任务所有的作品全部保存到硬盘上
比如三楼的作品是jpg就命名为3.jpg(如果是gif格式存为3.gif)
四楼的作品存为4.jpg
如果同一楼有多个作品,比如39楼,第一个作品就命名为39-1.jpg
第二个就是39-2.jpg
以此类推。。。。
k68 2128号任务 连接:http://www.k68.cn/PostViewMission.asp?dMode=0&PostPage=1&BoardID=1001&imageID=34314&page=1&imageNum=1&SearchWords=&sstype=1&rmd=19260
參考答案:这种情况用正则表达式最恰当。
注意:程序运行完毕后,note.txt 将记载所有程序找不到图片链接的楼号及相关的页面链接,
你必须自己鉴定那些楼里是否真的没有图片。估计有少于十层其实是有图片的(链接太不规律所致): 你自己储存好了。
# -*- coding: utf-8 -*-
import urllib, re, time
URLTemplate = '' + \
'&BoardID=1001&imageID=34314&page=1&imageNum=1&SearchWords=&sstype=1&rmd=19260'
pageURLs = [ URLTemplate % pageNum for pageNum in range( 1, 155 ) ]
startTime = time.time( )
noteFile = open( 'note.txt', 'w' )
savedFileCount = 0
print '\nInitializing... (will complete shortly)',
for pageURL in pageURLs :
pageSource = urllib.urlopen( pageURL ).read( )
splitted = re.split( '<b>(\d+)楼', pageSource )[ 1 : ]
for i in range( len( splitted ) ): # for each floor
if not i % 2: # floor numbers in even posistions, floor source in odd positions
floorNumber = splitted[ i ]
pictureURLPattern = r'(?<=href=")[^? ]+?\.\w{3}(?="\s*target)'
pictureURLs = re.findall( pictureURLPattern, splitted[ i + 1 ] )
if not pictureURLs:
note = 'no picture URL found at floor #%s on this page:\n%s\n' % ( floorNumber, pageURL )
print >> noteFile, note
else:
if len( pictureURLs ) == 1:
fileName = floorNumber + pictureURLs[ 0 ][ -4 : ]
urllib.urlretrieve( pictureURLs[ 0 ], fileName )
else:
for pictureNumber, pictureURL in enumerate( pictureURLs ):
fileName = '%s-%d%s' % ( floorNumber, pictureNumber + 1, pictureURL[ -4 : ] )
urllib.urlretrieve( pictureURL, fileName )
savedFileCount += len( pictureURLs )
print '\rSo far, %d files saved, floor # %s reached.\t\t\t\t' % ( savedFileCount, floorNumber ),
print '\n\nAll done! Saved %d files, took %.1f minutes.' % ( savedFileCount, ( time.time( ) - startTime ) / 60 )