| 近日,北方网技术部推出了又一技术成果——“北方网新闻抓取系统”。该系统是在参照了大量国内外同类产品的技术模型后,结合国内外先进的技术经验,并针对网络新闻编辑的实际工作需求开发而成。
北方网新闻抓取系统
该系统可实现新闻自动抓取的功能,可以自定义抓取站点和抓取内容,操作简单,不需要进行模板的定义。自动分析网页结构,提取出文章的标题、正文、作者、关键字、图片等信息。提取得精度高达97%~98%,过滤无用的广告,超级链接以及HTML代码,不受网站改版的影响。并具有去除抓取重复新闻以及同时抓取更多页新闻的功能。
北方网新闻抓取系统可大大的提高编辑的工作效率。通过快速、准确、自动跟踪采集各家网络媒体资源,扩大新闻线索,实现了互联网信息内容的采集、浏览、编辑、管理一体化。
|