数据挖掘-下载狗狗派影评数据的实现

2009-07-30 8:39 am

狗狗派1

狗狗派2

狗狗派3

下载狗狗派影评数据的实现

 

任务描述:写一个自动下载狗狗派(http://pai.gougou.com/ )电影信息的脚本程序,比如perl或者python。要求运行需求简单易用。具体要求:
程序能够自动访问每一个电影的网页,例如:
http://pai.gougou.com/subject/48167.html
然后把影片的相应内容抓出来,并自动打印到列表中(每一行是一个影片,每一列是相应的参数),例如:
1. 影片名称
2. 影片英文名称
3. 别名
4. 导演
5. 主演
6. 国家
7. 类型
8. 语言
9. 片长
10. 5分评价个数
11. 4分票价个数。。。等
12. 喜欢这部影片的人也喜欢的其他影片
13. 影评数目
14. 该影片页面的网络地址
我们将根据程序的可用性,可读性和优化性择优。多谢!
注意:您没有必要运行程序找到所有影片数据,但是程序设计要能够让我们很方便的运行并尽可能找到所有的影片。

 

 

1.本软件由Java语言编写。
2.实现抓取本页面时,获取喜欢这部影片的人也喜欢的影片地址收集。
3.多线程并发抓取。
4.暂停或者异常后可以继续抓取已收集的未抓取的地址。
5.可以根据自己的需要定制抓取字段。
6.已抓取的数据可以定时更新,数据库没有重复冗余数据。
7.使用Access数据库,方便用户对数据进行各种查询操作。
8.可以为用户定制全文搜索(不是简单的数据库like查询)

请与我联系qq:744137382 电话15303350356 邮箱cnlll@qq.com
JAVA下载地址
http://www.java.com/zh_CN/download/windows_ie.jsp?locale=zh_CN&host=www.java.com&bhcp=1

安装完成后 吧ggpai.rar 解压到D:根目录下,因为数据库暂时配置的是D:ggpai.mdb
双击gougou.exe

推荐(0)
收藏
分享至: Del.icio.us Google书签 Digg Live Bookmark Technorati Furl Yahoo书签 Facebook 百度搜藏 新浪ViVi 365Key网摘 天极网摘 和讯网摘 博拉网 添加到饭否 QQ书签 POCO网摘 Digbuzz我挖网