这个项目主要是分析一个页面的深度链接值,然后进行相应的抓取.目前已经完成了
单页面抓取操作方法的封装(import graspContent.py)
以及
MySQL数据库连接(import link_db.py)
.
Python操作MySQL的库是MySQLdb:
MySQLdb is the Python DB API-2.0 interface. _mysql is a low-level API similiar to the MySQL C API. ZMySQLDA is a Database Adapter for Zope2.
在
这里可以找到更多信息和下载.
高效的协议分析可以参考
curl,
PyCurl是其一个python封装.
项目放置在
上,采用MIT协议分发.如果有兴趣加入,可以发邮件至myctrls@gmail.com和我联系.
项目地址
http://code.ibd.ac.cn
SVN checkout:
https://xspider2.googlecode.com/svn/trunk/
最后感谢很多在我学习和实践python道路上帮忙的很多朋友们.
附图是xspider2的结构图.
- 描述: 红色的部分是四个基础方法
- 大小: 4.6 KB
分享到:
- 2008-03-08 00:28
- 浏览 1337
- 评论(0)
- 论坛回复 / 浏览 (0 / 2468)
- 查看更多
相关推荐
自已写的一个CTreeCtrl 可以设置指定ITEM颜色及字体
自已写的一个WEB站点日志程序 <br>作用: 将调试信息写到日志文件中去。 <br>特点: 一、不用指定目录,默认是在站点目录下生成一个logs目录,生成日志的文件名是:站点虚拟目录.日期.log,当然你也可以...
自已写的一个VB时间控件源码(OCX) 自已写的一个VB时间控件源码(OCX)
自已写记事本 一个和注册表相关联的记事本
用halcon自已写的直线测量的例子,可以设置卡尺,搜索框,给新手一个启发
自已写的FPGA使用SPI模式读写FLASH ,Flash型号W25Q128BV。
自已写的js表单验证类调用极为简单(自己项目中正在用的,呵呵!)
关于批处理的一些资料,其中MODIFY_PHX.BAT与RENAME.BAT是自已看完资料后写的,功能:实现对某一目录下所有文件名的提取与修改。
C# vs 2010 .net 4.0。 自已写来自已用的,传到网上交流一下,主要有 一,备忘记录,提醒,增加,修改,删除等 二,日志功能,提醒每天写日志,方便工作总结。 大家有什么好的想法,可以评论哦。
自已动手写开发工具 MyCompiler 一个能编译C语言代码的源码
自已写的图形项界面, 主要功能就是在一个view中,显示item,并可对item进行操作,还有些缩放平移功能没有实现,没有动画效果.zip
自已写的一个在线多媒体播放器,Silverlight 4.0的,里面还有一点测试的代码,检查改一下就行了.
自已写的Delphi DATASNAP的DEMO,有客户端和服务端,使用参数传递方式实再对数据库的添加、修改、删除操作,发出来大家共同学习
自已收集的一些网络爬虫开发的资料、文档、以一些源码。有需要的朋友可以下载哦。
Delphi 本身的Format函数四舍五入和财务中四舍五入不一样,所以自己写了一个四舍五入函数,请参考
代码都是用svn来管理的,但是web项目基本上是由成千上万个文件组成的,每次发布到新功能上去,都是痛苦的过程,一个个对照log来找文件,还要把不能发布的文件删除,人一多,时间一长,自已都不记得发布了什么,什么 ...
自已写的phpMVC框架,控制器、模型、视图都基本实现了,有兴趣的可以下来看看
NULL 博文链接:https://tntxia.iteye.com/blog/699654
读一个文件的三百字节数据,并写入新创建的“xinjian.txt”文件中
因为自已平时会把一个常用到逻辑写成一个工具python脚本,像关于时间字符串处理,像关于路径和文件夹遍历什么的工具。每一次新建一个项目的时候都要把这些工具程序复制到每个项目中,换一个电脑后还要从github生新...