苦灵大师在哪里:新浪读书频道下载合成txt小说(修改) - 代码分享 - 开源中国社区

来源:百度文库 编辑:九乡新闻网 时间:2024/05/06 00:53:16
新浪读书频道下载合成txt小说(修改)hcqenjoy 发布于 2010年12月17日 14时 (0评) 1人收藏此代码, 我要收藏(?) 标签: 新浪 , 下载 , 小说

代码片段(1)

[代码] [Python]代码

view sourceprint? 01 Python语言: 新浪读书频道下载合成txt小说(修改) 02 # coding:utf-8 03 # ------------------------------------------------------------ 04 # 简介 : 在新浪读书频道下载小说,并整理、合成为纯文本格式。方便阅读。 05 # ------------------------------------------------------------ 06 # 说明 : Python 用来写一些类似的 bot 很方便,关键在于: 07 #       1. 网络地址的分析,从页面中分析出各个页面的 url 08 #       2. 读取各 url 分析你所要的内容。 09 #       3. 现在虽然有 BeautifulSoup 等优秀的分析模块,但是我还是很喜欢 10 #           用正则表达式,原因是无需第三方模块,而且正则表达式是非常有 11 #           用的工具,正好练习练习。 12 # ------------------------------------------------------------ 13 #       这个代码当时是在 csdn 看到的。是哪位兄弟写的当时没有保留,但是就是 14 #       这个程序让我见识到了 python 的简洁和高效,也从学习这个程序开始接触 15 #       python ,并写了一些自己用的小 bot ,再次感谢哪位兄弟。 16 # ------------------------------------------------------------ 17 # sofoot修订说明: 18 #        1、改的别人的代码,原代码地址:http://fayaa.com/code/view/148/ 19 #        2、由于原代码时间比较早,新浪的地址和网页格式变化了,所以进行了修改 20 #        3、这段代码结构比较清楚,很容易改成抓取其他网站网页的 21    22 import re 23 import urllib 24    25 def extract_links(html): 26     blocks = re.findall(r'
    .*?
'
, html, re.S) 27     links = [] 28     for b in blocks: 29         links += re.findall(r']*>([^<>]*)', b) 30     return links 31    32 def extract_content(html): 33     m = re.search('
.*?<\/div>', html, re.S) 34     return m and html_to_text(m.group()) or '' 35    36 def html_to_text(html): 37     html = re.sub(r'

(.*?)

'
, r'\1\n', html) 38     html = re.sub(r'<[^<>]*>', '', html) 39     html = html.replace('\r', '') 40     return "\n\n" + html.strip() + "\n\n" 41    42 def url_get(url): 43     u = urllib.urlopen(url) 44     c = u.read() 45     u.close() 46     return c 47    48 def download_book(urlindex, filename): 49     links = extract_links(url_get(urlindex)) 50    51     fp = open(filename, 'w') 52     for link in links: 53         u = 'http://vip.book.sina.com.cn/book/' + link[0].replace('"', '') 54         title = link[1] 55         fp.write(title) 56         fp.write(extract_content(url_get(u))) 57         print u 58         print title.decode('gb2312') 59     fp.close() 60    61 # 使用例子,下载并合成一个单独的 txt 62 download_book('http://vip.book.sina.com.cn/book/index_130919.html ', '豪门罪妻.txt')
新浪读书频道下载合成txt小说(修改) - 代码分享 - 开源中国社区 Python 分割TXT文件成4K的TXT文件 - 代码分享 - 开源中国社区 Python 修改MP3 - 代码分享 - 开源中国社区 Python 常用代码片段 - 代码分享 - 开源中国社区 Python 简洁ini读写 - 代码分享 - 开源中国社区 Python threading模块 - 代码分享 - 开源中国社区 TXT小说下载|MP4电子小说免费下载|TXT电子书下载|短信铃声免费下载|TXT宝藏 无名小说网--txt小说下载,免费小说下载,电子书下载,手机小说下载,TXT全集小说下载 《给教师的100条建议》在线阅读|读书频道|电子书|读后感|txt下载 一语道破中国千年潜规则:每天懂一点人情世故 最新更新 帖子TXT小说下载... 【转帖】瑞丽评出,史上最好用的护肤品! | 美容护肤 - 橘园小说社区 - TXT完结下载 《中国人的性格历程》作者:张宏杰[完结]TXT下载 小说下载 溜达TXT... TXT打包天下_TXT小说打包_TXT电子书打包下载 玄女经全文阅读/玄女经TXT下载/王少少小说网 [转]123部中外著名小说电子书合集下载|PDF|文本txt小说下载 《包你实用的电脑技巧》 - 饭饭TXT小说免费下载,饭饭txt... 《包你实用的电脑技巧》作者:网络收集【全本TXT】 - 饭饭TXT小说免费下载,饭饭txt... 分享 7 大开源微博客程序【图文】 - 开源中国社区 让人终身受益的几个学术名词(1) - 新浪杂谈 - 文化读书社区 - 新浪网 百病秘方(收藏!) - 奇书网电子书,电子书下载,jar电子书,txt电子书下载,手机小说... 计较,是贫穷的开始 最新章节:读者心灵分享(2) 新浪读书 快眼看书 《包你实用的电脑技巧》作者:网络收集【全本TXT】 -XT小说免费下载,饭饭txt... 英雄志 最新章节-英雄志txt下载-17k小说网 英雄志 最新章节-英雄志txt下载-17k小说网