序号 UID1796
好友8 人
听众2 人
收听0 人
阅读权限30
注册时间2025-3-1
最后登录2025-4-28
在线时间64 小时
用户组:儒士
UID1796
积分398
回帖90
主题12
发书数6
威望341
铜币8520
贡献0
阅读权限30
注册时间2025-3-1
在线时间64 小时
最后登录2025-4-28
|
回帖奖励 +6 铜币
本帖最后由 edennow 于 2025-3-30 14:53 编辑
txtFormat 提供的这个硬回车正则本来就匹配了一些不应该算成错误的情况(比如 ~ 结尾之类的)。
可以尝试手动调整写法,改成用这样的正则来匹配:
^(?!··+|===+)(?!.*第[一二两三四五六七八九十〇零百千O0-9]{1,12}[章节節回集部卷篇])(.*?)(?<![\]}※〕::》】;;.。??”…!'’」』))\n!—〗\-─~~])$
这种“硬回车”还是得根据不同的情况来分类处理,有一些是要给当前行的结尾补上结尾标点,比如句号省略号之类的;有一些是要将当前行和下一行直接连接在一起,取消断行。
可以先大概归纳一下文本里有哪些可以简单统一替换的情况。
比如很多文本里是在“道”或者“说”之类的地方直接断行,那只要搜索 ([说道])\n 的正则,改成 \1:\n 或者 \1。\n 就行了,这样就能处理掉一定比例的简单错误。
类似还有象声词“咔嚓”“啪”之类的,只要匹配上,换成类似 \1!\n 这种就能解决。然后再人工判断残留的其他硬回车。
这种问题要想一键处理不太现实,如果直接一刀切把两行强行合并,或者强行在每行的末尾加上句号或者省略号,只会把文本改得面目全非,和作者的原意也存在很多的不相符。
另外如果有用这个脚本:https://www.1000qm.vip/forum.php?mod=viewthread&tid=2282
建议装一下 python,使用【文件全局搜索】来查这种硬回车,里面提供了一些预置的正则来处理各种情况,也能一眼看出文本中有多少处错误,不用去 txtFormat 里面重复点击坐牢。
|
评分
-
查看全部评分
|