本帖最后由 edennow 于 2025-3-14 08:02 编辑
【更新内容】
3 月 1 日更新,完善了 【双击运行】文件全局搜索.bat 的一些操作,具体可看下面的置顶楼层。
新增 【双击运行】15.查找文本中的重复段落.bat,对文本中可能存在的重复段落进行简单的检测(之前的软件一个文件最多只能检测 30000 多行也太无厘头了吧)。
能够提前排查一些可能存在的重复章节内容,也能鉴赏一下某些作者是如何无节操复制粘贴水文的。

论坛里原先算是有了比较全的用于文本校对的工具,不过我自己使用体验下来,感觉操作流程还是有点机械重复了。
毕竟是十多年前到现在一直没有更新过的工具了,从以前论坛中经过软件校对发出来的文本内容来看,网文中很多常见的错别字也没有得到进一步修正。
因此另外写了一套自动修正的脚本,支持 epub 和 txt 两种格式的文件,支持自动嵌套递归批量修改书籍文件。
再也不想看到:
“半响”“嘎然而止”“诺大的”“按耐”“一颗树”“一柱香”
“臻首”(真想知道是哪位大才子最先开始这么写的,去和写“柔夷”那伙坐一桌) “附骨之蛆”(应为“疽”,百思不得其解的一个错词,到底为什么能写成“蛆”-_-||)
“一滩水/血/泥”(应为“一摊水/血/泥”,不用怀疑,“滩”并没有量词的用法)
这些令人哭笑不得(按“网文通假字”的写法可能是“苦笑不得”)的错别字出现在文本里了。
php 环境
现在把 php 8.1 版本的可执行文件也同时打包进来了,不需要额外自己安装环境,一键运行即可(Windows 系统中)。
因为本身代码写得很简单,为了减小压缩包体积,去掉了一些 php 扩展文件,如果执行有问题可以提出。 如果有在 mac 或者其他系统使用的需要,也可以私信问一下我,脚本本身的代码是跨平台的,只是改变一下调用方式就可以了。
如有 vcruntime140.dll 缺失、命令行乱码等问题,请下载使用文档,查看“简易版”中的说明。
使用方法
把所有书籍放入 books 文件夹,执行 【双击运行】1.书籍校正.bat,这个命令会对 books 文件夹中的书籍进行备份(自动复制一份到 booksBak 中)和递归校正。
执行了 FixText 中的校正 bat 脚本,完成文本校正后,建议直接用 Beyond Compare 的 “文件夹对比” 功能对比 【books 文件夹】中被修改的书籍 和 【booksBak 文件夹】中被预处理过的书籍备份原文件,手动进行对修改结果的确认和对误伤项的修复。
如果是 epub 的书籍,改动都应用到了 books 和 booksBak 文件夹中转换出来的 带【EPUB合并文件】前缀的 txt 文件中,使用 BC 直接比较带有此前缀的 txt 文件,即可确认修改效果。
然后执行 6.EPUB 文本拆分还原(从 TXT 中拆分).bat 进行还原,会把带前缀的 txt 文件重新拆分成 epub,覆盖掉原有的文件。
脚本下载:
使用文档:
Beyond Compare 5.0.6,绿色版,免安装,64 位:
校对的工具和方式千变万化,一个简单易用的比对软件才是真正的基础。
Beyond Compare 4.4.7:
BC 5.0 以上的版本支持自动换行,但是实测发现,如果有在别的编辑器进行编辑,BC 自动重载时,定位会混乱。
需要自己手动调整滚动条才能回到之前的位置,而 4.x 版本则无此问题。
但 4.x 版本就是不支持自动换行了,可以按需选择。
新加了一个“简易版”的文档,仅包含脚本运行的必要条件和简单的使用流程,推荐可以直接先看这份。
另外带日期的那份是详细的功能说明文档,如果你有更改词库和对其他功能进一步了解的需要,可以抽时间慢慢看。
下附一些“的地得”和“严格模式”所做修改的相关信息,如有修改“的地得”的兴致或者需要,可进行一些参考:
【常见的比较纠结的“的地得”用法】https://pub.bnu.edu.cn/jzyg1/109799.html(最后一种个人不完全认同,更倾向于“看把你给美的”“看你这话说的”。)
【拟声词的后面用“的”还是“地”?】http://paper.people.com.cn/rmrbhwb/html/2015-06/20/content_1578843.htm
【年代久远的书籍是否应该强制区分“的地得”?】http://www.jiaodui.com/bbs/read.php?tid=11085
【“来自于”“涉及到”等表达,是赘余还是羡余?是改还是不改?】https://pub.bnu.edu.cn/jzyg1/80840.html
校对表内容会有不定时更新,可以留意本帖最后编辑时间及最新附件上传时间。
|