`

新闻抓取爬虫 PPT

阅读更多
不用多言,请见附件 :)

上slideshare view  -> http://www.slideshare.net/edisonlz/ppt-4395676

补充,不使用分词的,很简单,但效果一般的排重算法如下:

#encoding = utf8
import re 
import sys,os
import re

chars = []
def generate_chars(strList):
    """
    创建字典
    """
    for sr in strList:
        for char in sr:
            if char not in chars:
                chars.append(char)


def vector(sr):
    """
    将字符串转换为向量空间
    """
    vec = []
    for char in chars:
        if sr.find(char) !=-1:
            vec.append(1)
        else:
            vec.append(0)
    return vec

def intersaction(str1,str2):
    """
    计算交集
    """
    v1 =vector(str1)
    v2= vector(str2)
    rv = 0
    for i in xrange(len(v1)):
        rv += v1[i] * v2[i]
    return rv

def detect_repeat(strList):
    """
    检测字符串字符匹配
    """
    chars = generate_chars(strList)
    
    #临界值
    critical = 3
    results = []
    for st in strList:
        if all(intersaction(st,rt) < critical  for rt in results):
            results.append(st)
    
    #返回检测结果
    return results


if __name__ =="__main__":
    strLists = [u"大家好啊",u"大家好",u"张靓颖新专辑",u"张靓颖专辑"]
    results = detect_repeat(strLists)
    print "result " + " > " * 20
    for ru in results:
        print ru.encode("utf-8")


分享到:
评论
5 楼 edisonlz 2010-06-03  
seacoastboy 写道
不错 ! 楼主可以 找个地方群 讨论一下

erickdu888 写道
不能放在slideshare.com么?

好主意,谢谢提供 :)
4 楼 erickdu888 2010-06-03  
不能放在slideshare.com么?
3 楼 greatghoul 2010-06-01  
ppt做的不错,不过当时一看你的标题时还真是一头雾水。
2 楼 snow8261 2010-06-01  
不知道这段代码和ppt有什么关系。
1 楼 seacoastboy 2010-05-28  
不错 ! 楼主可以 找个地方群 讨论一下

相关推荐

    MOOCpython爬虫PPT

    MOOC的PYTHON爬虫PPT下载,有需要的小伙伴可以下载看一下

    爬虫PPT.pptx

    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 爬虫概述 爬虫流程 常用模块 网站示例

    Python-爬虫课件.ppt

    网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

    大数据爬虫技术第10章 初识爬虫框架Scrapy.ppt

    第二步就是明确爬虫项目要抓取的内容。以培训公司的讲师为示例,该页面的内容如下图所示。 抓取内容就是页面中所有讲师的姓名、级别和个人信息等数据。 Scrapy提供了基类scrapy.Item用来表示实体数据。我们一般需要...

    大数据爬虫技术第1章 初识爬虫.ppt

    如果说网络像一张网,那么爬虫就是网上的一只小虫子,在网上爬行的过程中遇到了数据,就把它抓取下来。 网络爬虫,又称为网页蜘蛛、网络机器人,是一种按照一定的规则,自动请求万维网网站并提取网络数据的程序或...

    大数据爬虫技术第2章 爬虫的实现原理和技术.ppt

    01 爬虫实现原理简介 02 爬虫抓取网页的详细流程 03 通用爬虫中网页的分类 04 通用爬虫相关网站文件 05 防爬虫应对策略 06 为什么选择Python做爬虫 网站通过robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面...

    Python小工具爬取PPT模板.zip

    Python小工具爬取PPT模板.zip 如果不能直接运行,安装Python环境.... 下载的PPT目录在 D盘的 pptdown 文件夹下..

    大数据爬虫技术第9章 存储爬虫数据.ppt

    爬虫的数据存储可分为如下两种方式: 文件存储 数据库存储 对于抓取的数据种类丰富、数量庞大的大规模爬虫来说,我们可以将这些爬虫结果存入数据库中,不仅方便存储,也方便进一步整理。 对于这种中小规模的爬虫而言...

    完整版Python网络爬虫之Scrapy爬虫框架使用案例教程含源代码共18页.pdf

    Scratch,是抓取的意思,这个Python的爬虫框架叫Scrapy,大概也是这个意思吧,就叫它:小刮刮吧。 小刮刮是一个为遍历爬行网站、分解获取数据而设计的应用程序框架,它可以应用在广泛领域:数据挖掘、信息处理和或者...

    第一ppt模板抓取脚本.py

    第一ppt模板免费下载ppt 但是如果需要批量下载比较麻烦,那么可以借助这个脚本完成批量下载PPT。

    大数据爬虫技术第11章 Scrapy终端与核心组件.ppt

    log(message) 负责发送日志信息 01 Scrapy shell—测试XPath表达式 02 Spiders—抓取和提取结构化数据 03 Item Pipeline—后期处理数据 04 Downloader Middlewares—防止反爬虫 05 Settings—定制Scrapy组件 当Item...

    易语言超简单爬虫代码【开源】

    个人编写的爬虫代码,几十行代码抓取某PPT模板下载网站整站数据,有需要的可下载进行交流学习。 材料仅供交流学习,请勿进行非法用途,后果自负,谢谢!

    计算机毕业设计:Python实现的基于定向爬虫的商品比价系统,保证可靠运行,附赠计算机答辩PPT模板

    《计算机毕业设计:Python实现的基于定向爬虫的商品比价系统(源码+详细说明),保证可靠运行,附赠计算机答辩PPT模板》是一项集技术创新与实用性于一体的计算机学习资源,尤其适用于本科课程设计、毕业设计以及...

    计算机毕业设计:Python实现的分布式爬虫设计(Python+Scrapy+Redis),保证可靠运行,赠计算机答辩PPT模板

    该系统采用Scrapy框架作为爬虫核心,通过编写相应的爬虫规则,实现对目标网站的数据抓取。同时,结合Redis技术,实现了爬虫任务的分发和结果存储,使得整个爬虫系统具备了分布式处理的能力。这种设计不仅大大提高了...

    Python绝密学习资料PPT,Python小白必看,附19种Python应用案例

    第1章 Python基础知识,第2章 序列应用——猜单词游戏、第3章 数据库应用--智力问答测试、第4章 调用百度API应用——小小翻译器 、第5章 爬虫应用——校园网搜索引擎、第6章 爬虫应用——抓取百度图片。。。。。第17...

    毕业设计--基于微博用户信息数据的分布式爬虫.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    Python3爬虫中Splash的知识总结

    利用它,我们同样可以实现动态渲染页面的抓取。 1. 功能介绍 ·利用Splash,我们可以实现如下功能: ·异步方式处理多个网页渲染过程; ·获取渲染后的页面的源代码或截图; ·通过关闭图片渲染或者使用Adblock规则...

    20 行 Python 代码批量抓取免费高清图片!

    源 / 数据分析1480 & 小象相信在你的工作中可能会经常用到PPT吧,你在PPT制作过程中有没有这样的困惑,就是可以到哪里...我们知道,对于图片网站的抓取,往往需要经过三层网页链接,为了能够直观地理解这三层链接,

    基于Java和Python的爬虫项目实战源码.zip

    宽度优先遍历有利于多爬虫的合作抓取,多爬虫合作通常先抓取站内链接,抓取的封闭性很强; 解析HTML网页---Jsoup Maven中配置: &lt;dependency&gt; &lt;groupId&gt;org.jsoup&lt;/gorup&gt; &lt;artifactId&gt;jsoup&lt;/artifactId&gt; ...

Global site tag (gtag.js) - Google Analytics