Jul
30

数据挖掘-下载狗狗派影评数据的实现
2009-07-30 8:39 am 作者:陈敏

狗狗派1

狗狗派2

狗狗派3

下载狗狗派影评数据的实现

 

任务描述:写一个自动下载狗狗派(http://pai.gougou.com/ )电影信息的脚本程序,比如perl或者python。要求运行需求简单易用。具体要求:
程序能够自动访问每一个电影的网页,例如:
http://pai.gougou.com/subject/48167.html
然后把影片的相应内容抓出来,并自动打印到列表中(每一行是一个影片,每一列是相应的参数),例如:
1. 影片名称
2. 影片英文名称
3. 别名
4. 导演
5. 主演
6. 国家
7. 类型
8. 语言
9. 片长
10. 5分评价个数
11. 4分票价个数。。。等
12. 喜欢这部影片的人也喜欢的其他影片
13. 影评数目
14. 该影片页面的网络地址
我们将根据程序的可用性,可读性和优化性择优。多谢!
注意:您没有必要运行程序找到所有影片数据,但是程序设计要能够让我们很方便的运行并尽可能找到所有的影片。

 

 

1.本软件由Java语言编写。
2.实现抓取本页面时,获取喜欢这部影片的人也喜欢的影片地址收集。
3.多线程并发抓取。
4.暂停或者异常后可以继续抓取已收集的未抓取的地址。
5.可以根据自己的需要定制抓取字段。
6.已抓取的数据可以定时更新,数据库没有重复冗余数据。
7.使用Access数据库,方便用户对数据进行各种查询操作。
8.可以为用户定制全文搜索(不是简单的数据库like查询)

请与我联系qq:744137382 电话15303350356 邮箱cnlll@qq.com
JAVA下载地址
http://www.java.com/zh_CN/download/windows_ie.jsp?locale=zh_CN&host=www.java.com&bhcp=1

安装完成后 吧ggpai.rar 解压到D:根目录下,因为数据库暂时配置的是D:ggpai.mdb
双击gougou.exe

推荐(0)
收藏
分享至: Del.icio.us Google书签 Digg Live Bookmark Technorati Furl Yahoo书签 Facebook 百度搜藏 新浪ViVi 365Key网摘 天极网摘 和讯网摘 博拉网 添加到饭否 QQ书签 POCO网摘 Digbuzz我挖网 
Jul
30

山寨百度-Nutch的二次开发
2009-07-30 8:30 am 作者:陈敏

山寨百度的第一个界面,基本上是仿得百度的CSS和直接引用的百度图片,还是因为没有美工,^_^

nutch1

键入“张三”后 的 后台输出界面

nutch2

键入“张三”后 的 WEB界面上屏

nutch3

键入“张三”后 的 WEB界面下屏,

nutch4

点击“张三丰”以后的后台界面

nutch5

点击“张三丰”以后的前台界面

nutch6

nutch的网页快照

nutch7

nutch的爬虫界面

 

nutch9

nutch的爬虫结果

nutch10

给一个网友做的 山寨搜索

他比较稀罕百度的样式风格

基本上 样式一致

只需要自己修改个Logo图片就可以了

这个系统主要是那个相关搜索花的时间比较长

由于版权问题 相关搜索,和26万常用词库暂时 不对外开放

在实际的使用过程中,程序将会收集真实用户的输入词条

并将参与运算产生新的相关搜索结果,

但是也必须人工干涉相关词条,去除不允许的词条

如果有技术上的类似问题可以找我探讨

QQ:281284015

推荐(0)
收藏
分享至: Del.icio.us Google书签 Digg Live Bookmark Technorati Furl Yahoo书签 Facebook 百度搜藏 新浪ViVi 365Key网摘 天极网摘 和讯网摘 博拉网 添加到饭否 QQ书签 POCO网摘 Digbuzz我挖网