Python是如何判断大数据唯一性的呢?，python判断数据,我想用python对全网

文章由Byrx.net分享于2019-03-23 08:03:47评论（82）

Python是如何判断大数据唯一性的呢?，python判断数据,我想用python对全网

我想用python对全网的网站进行扫描记录，想用mysql建个表记录每个网站的信息，数据量大后怎么能快速的判断这个网站已经记录过呢？基本表结构有：id,url,name,datetime等相关字段，url想有唯一性，是拿到url查询一下判断没有数据再插入还是怎么办？如果做了唯一性索引直接插入时会报错，谢谢，或是有没有别的有效的解决办法？

对url进行hash，就是微博短域名一样，然后用kv，mysql都行
分布式kv数据库
对url分组
推荐使用Bloom Filter存储已经抓取到的url.
Bloom Filter实际上是由一组哈希函数和一个字节列表组成. 详细介绍可以参考百度百科和这篇博文.
如果使用Python可直接安装Pybloom包, 这里已经实现了Bloom Filter.

编橙之家文章，

热门文章：

Python是如何判断大数据唯一性的呢?，python判断数据,我想用python对全网

Python是如何判断大数据唯一性的呢?，python判断数据,我想用python对全网

相关内容

最新python问答

python~HOT