删除重复内容行

删除重复内容行

由于要处理一个两万多行的数据，但要删除其中内容重复的行，所以找了几个方法：

1. 用sed替换重复内容，使用命令 -n "G;s/\n/&&/;/^$.*\n$.*\n\1/d; s/\n//;h;P" "$(FilePath)" （这里是在editplus里的使用，注意$(FilePath)必须是带路径的文件名）。当然sed不需依赖editplus，可以单独使用的。优点：删除重复内容后，顺序结构不变。缺点：不支持UTF-8，处理大文件时（2w多行）就不行了。

2.使用editplus-工具-排序，勾选"删除重复"。可惜不想把内容排序，却被自动排序了。（勾选"区分位置"，好像没用？），这个效率相当快～差不多是瞬间完成的，之所以没放弃editplus，确实它的优点有很多。

3.使用一个批处理

@echo off :: 删除重复的行，但不能保留空行 :: 对不符合变量命名规则、变量个数超过限制的文本都无法正确处理 (echo 清除重复行后的文件内容：& echo.)>str_.txt for /f "delims=" %%i in (testText.txt) do ( if not defined %%i set %%i=A & echo %%i>>str_.txt) :: start str_.txt

当然也不支持utf8，效率也比较慢，处理2w多行用了1分多钟，不过排序没有改变:)。

BUY ME A COFFEE

发布时间: 2008-12-30 / 分类: 工具,实践 / TrackBackhttps://lb-dm-lax-spro.xhl.me/archives/661/trackback标签: none

仅有1条评论 »

使用EditPlus和批处理删除文本重复内容行 | Pop's Blog

2014-03-05 / 09:33 AM

[...]http://www.fantxi.com/blog/archives/661/[...]

回复

添加新评论 »

kairyou: st3什么版本，系统是什么系统？

yiiii: 你好，sublime text3安装，新建报错咋整，找不到python.tmpl在templa...

kairyou: ST3应该要重启下编辑器

koko: 你好，sublime 3 安装了插件后，使用模版创建文件提示找不到模版文件

kairyou: 要看nmap绑定了什么快捷键,比如: `<Leader>cr`, 就是顺序按\cr...

张震: gvim是在编辑模式下输入：f4 +cr就可以调用谷歌浏览器吗？

ikonbe: 感谢大佬指点，已经解决了，修改了python脚本里面的代码。

kairyou: 你如果是git方式安装的插件, 可以在这行下面https://git.io/vpdtg, 加上...

ikonbe: 感谢大佬。不知道你还在维护没有。求教一个问题，${saved_filename} 获取的到文...

Kairyou's Blog

专注于前端开发, 追求更好的用户体验, 更好的开发体验 [长沙前端QQ群:234746733]

仅有1条评论 »

添加新评论 »