苦灵大师在哪里:新浪读书频道下载合成txt小说(修改) - 代码分享 - 开源中国社区
来源:百度文库 编辑:九乡新闻网 时间:2024/05/06 00:53:16
新浪读书频道下载合成txt小说(修改)hcqenjoy 发布于 2010年12月17日 14时 (0评) 1人收藏此代码, 我要收藏(?) 标签: 新浪 , 下载 , 小说
代码片段(1)
[代码] [Python]代码
view sourceprint?01
Python语言: 新浪读书频道下载合成txt小说(修改)
02
# coding:utf-8
03
# ------------------------------------------------------------
04
# 简介 : 在新浪读书频道下载小说,并整理、合成为纯文本格式。方便阅读。
05
# ------------------------------------------------------------
06
# 说明 : Python 用来写一些类似的 bot 很方便,关键在于:
07
# 1. 网络地址的分析,从页面中分析出各个页面的 url
08
# 2. 读取各 url 分析你所要的内容。
09
# 3. 现在虽然有 BeautifulSoup 等优秀的分析模块,但是我还是很喜欢
10
# 用正则表达式,原因是无需第三方模块,而且正则表达式是非常有
11
# 用的工具,正好练习练习。
12
# ------------------------------------------------------------
13
# 这个代码当时是在 csdn 看到的。是哪位兄弟写的当时没有保留,但是就是
14
# 这个程序让我见识到了 python 的简洁和高效,也从学习这个程序开始接触
15
# python ,并写了一些自己用的小 bot ,再次感谢哪位兄弟。
16
# ------------------------------------------------------------
17
# sofoot修订说明:
18
# 1、改的别人的代码,原代码地址:http://fayaa.com/code/view/148/
19
# 2、由于原代码时间比较早,新浪的地址和网页格式变化了,所以进行了修改
20
# 3、这段代码结构比较清楚,很容易改成抓取其他网站网页的
21
22
import
re
23
import
urllib
24
25
def
extract_links(html):
26
blocks
=
re.findall(r
'.*?
'
, html, re.S)
27
links
=
[]
28
for
b
in
blocks:
29
links
+
=
re.findall(r
']*>([^<>]*)'
, b)
30
return
links
31
32
def
extract_content(html):
33
m
=
re.search(
'.*?<\/div>', html, re.S)
34
return
m
and
html_to_text(m.group())
or
''
35
36
def
html_to_text(html):
37
html
=
re.sub(r
'(.*?)
'
, r
'\1\n'
, html)
38
html
=
re.sub(r
'<[^<>]*>'
, '', html)
39
html
=
html.replace(
'\r'
, '')
40
return
"\n\n"
+
html.strip()
+
"\n\n"
41
42
def
url_get(url):
43
u
=
urllib.urlopen(url)
44
c
=
u.read()
45
u.close()
46
return
c
47
48
def
download_book(urlindex, filename):
49
links
=
extract_links(url_get(urlindex))
50
51
fp
=
open
(filename,
'w'
)
52
for
link
in
links:
53
u
=
'http://vip.book.sina.com.cn/book/'
+
link[
0
].replace(
'"'
, '')
54
title
=
link[
1
]
55
fp.write(title)
56
fp.write(extract_content(url_get(u)))
57
print
u
58
print
title.decode(
'gb2312'
)
59
fp.close()
60
61
# 使用例子,下载并合成一个单独的 txt
62
download_book(
'http://vip.book.sina.com.cn/book/index_130919.html '
,
'豪门罪妻.txt'
)
新浪读书频道下载合成txt小说(修改) - 代码分享 - 开源中国社区
Python 分割TXT文件成4K的TXT文件 - 代码分享 - 开源中国社区
Python 修改MP3 - 代码分享 - 开源中国社区
Python 常用代码片段 - 代码分享 - 开源中国社区
Python 简洁ini读写 - 代码分享 - 开源中国社区
Python threading模块 - 代码分享 - 开源中国社区
TXT小说下载|MP4电子小说免费下载|TXT电子书下载|短信铃声免费下载|TXT宝藏
无名小说网--txt小说下载,免费小说下载,电子书下载,手机小说下载,TXT全集小说下载
《给教师的100条建议》在线阅读|读书频道|电子书|读后感|txt下载
一语道破中国千年潜规则:每天懂一点人情世故 最新更新 帖子TXT小说下载...
【转帖】瑞丽评出,史上最好用的护肤品! | 美容护肤 - 橘园小说社区 - TXT完结下载
《中国人的性格历程》作者:张宏杰[完结]TXT下载 小说下载 溜达TXT...
TXT打包天下_TXT小说打包_TXT电子书打包下载
玄女经全文阅读/玄女经TXT下载/王少少小说网
[转]123部中外著名小说电子书合集下载|PDF|文本txt小说下载
《包你实用的电脑技巧》 - 饭饭TXT小说免费下载,饭饭txt...
《包你实用的电脑技巧》作者:网络收集【全本TXT】 - 饭饭TXT小说免费下载,饭饭txt...
分享 7 大开源微博客程序【图文】 - 开源中国社区
让人终身受益的几个学术名词(1) - 新浪杂谈 - 文化读书社区 - 新浪网
百病秘方(收藏!) - 奇书网电子书,电子书下载,jar电子书,txt电子书下载,手机小说...
计较,是贫穷的开始 最新章节:读者心灵分享(2) 新浪读书 快眼看书
《包你实用的电脑技巧》作者:网络收集【全本TXT】 -XT小说免费下载,饭饭txt...
英雄志 最新章节-英雄志txt下载-17k小说网
英雄志 最新章节-英雄志txt下载-17k小说网