Python对XML大文件数据去重什么方法好,pythonxml文件数据,目的:xml->mysq


目的:xml->mysql

困难:xml中可能存在重复数据,但xml文件有400+M

问题:如何去掉这些重复数据?

目前的想法:每次insert数据之前,把待插数据和表存数据进行比对,但感觉效率不高。

请教:有没有更好的办法?

才 400M 就算是大文件了么……

先做去重再导入数据呗。才400M的数据,拿个 dict 存需要去重的 key 就可以了。

编橙之家文章,

评论关闭