阡陌居

 找回密码
 立即注册
搜索
热搜: 新人报到
查看: 1005|回复: 27

[软件] 【FixText】文件全局搜索功能说明(新增章节序号检测和重排)

[复制链接]

用户组:版主

      UID
1796
      积分
485
      回帖
129
      主题
16
      发书数
9
      威望
398
      铜币
12363
      贡献
0
      阅读权限
100
      注册时间
2025-3-1
      在线时间
127 小时
      最后登录
2025-5-31
发表于 2025-4-27 08:36 | 显示全部楼层 |阅读模式
本帖最后由 edennow 于 2025-5-25 12:30 编辑

文件全局搜索

脚本下载:https://www.1000qm.vip/forum.php?mod=viewthread&tid=2282,FixText.zip 附件。

将之前 txtFormat 中个人认为比较实用的部分正则进行抽取,提供一个全局检索和修改的视图,查改叠字叠词、错乱标点之类的体验应该有明显的提升。
另外加上了一些标点规范的修正和排版标记快捷添加的功能。

将需要处理的书籍放到脚本的 books 文件夹后,双击 文件全局搜索.bat 执行,仅支持 utf-8 编码的文件

需要本地有安装 python 才可执行(需要是 python 3 以上的版本,如果是 python 2 的话也无法运行),安装方式请自行百度,或者下载上面的使用文档,查看其中“简易版”的说明,只是点两下鼠标的事情。

现在改成了第一次进入这个界面前,先在本地创建虚拟环境,涉及通过网络安装所需的模块。
因此每次版本更新后第一次打开这个界面会要等待一段时间,是正常的,等环境自动创建完成后才可进入,后面有了环境和缓存就不会这么慢了。

1.选择文件、规则:
如需修改或增删规则,可以直接改 src/tools/file_global_search_pyqt/config.py 文件,
开头有写每条规则的字段说明,改完保存之后可以点击一下规则输入框旁边的“刷新规则列表”按钮,即可生效。
如果想改字体,可以更改同文件夹内的 ui.ui 文件,搜索一下黑体,把那几处都替换成你想要的字体即可。
背景色之类的也可以自己问 ai 改一下 ui.ui,后面等有兴致了再做这些涉及配置的功能。


2.可根据需要调整上下文行数,默认为 1 行:


3.快捷键进行替换和撤销:
使用 Alt+F 和 Alt+D 快捷键可以在前后的匹配项进行跳转。


4.使用“替换全部”时,可以通过标记 x 来排除掉一些不用修改的项:


5.寻找一些或可标记的内容,进行便捷的标记操作:
建议熟悉后直接使用快捷键进行操作,会方便不少。
如果内容比较长被截断了,可以调整上下文行数重新搜索。
可以用左边的上下按钮或者 Alt+F Alt+D 快捷跳转。


另外 Ctrl+F 是打开搜索编辑框,Ctrl+G 是跳到对应行。
在这个界面修改完成之后,需要按  Ctrl+S 或点击保存按钮才能将内容保存到实际的文件。

建议随时使用 BC 比较 books 和 booksBak 的文件,确认每一步的修改结果。



新增章节序号相关功能

在规则列表最后新增了两条“读取【章、节、回】行,检查乱序(TXT)”和“读取【卷、部、集】行,检查乱序(TXT)”。

分别针对“章”“卷”级别的标题行进行检测,如果有其他格式的标题,可以点击搜索框,自己调整正则。

使用前,请先使用前面关于章节行的规则对章节行进行规范:【查找中间缺空格分隔的章节行】以及【查找重复或连续的章节行】等等。
这里的“读取【章、节、回】行”只支持“第×××章+空格+内容”的明确形式,使用前面的规则处理完成后才能完整查出。
更改排序后,请使用 BC 比较结果进行验证,也要去文本的源网站对比章节号,避免出现错漏。


1.快速定位乱序行:


2.如果只是简单的出错,可以直接重排所有标题:
Ctrl+A 全选,用右键菜单里的按钮改掉保存即可。


3.可以只重排选中范围内的标题,可以实现阿拉伯数字和中文数字的互换:
注意这里最重要的是要确认你选中的第一行标题是什么数字,会以那个数字作为起始,重排选中的所有标题
因此很多时候应该从【乱序行】的【上一个章节行】开始选中再重排,不要直接从【乱序行】开始选择,否则大概率无法实现正确的重排。

不支持同一个【章节行】内含有多种层级的写法,例如“第一卷 AAA 第一章 BBB”这种。
实际上读取的起始序号是“第一个章节行的第一个数字”,如果有这种特殊需求,
可能可以先把标题反过来变成第一章 BBB 第一卷 AAA”,然后再重排,排完后再将章节行还原为初始的格式。


也可以考虑更改搜索表达式,同时搜出 [卷章] 等不同级别的标题,然后用左边的上下按钮在不同的卷之间快捷跳转(会被视为乱序行)。
选中各卷包含的章节行后,单独从 1 开始对每卷的章节号进行重排。
(提示:可以尝试在使用左边的上下按钮于各卷间跳转时,记一下当前卷的开头和结尾行号。
然后使用 Ctrl+G 跳转到指定行,会自动选中跳转前后的所有章节行,然后右键重排即可)。

另外就是这里写得很简单粗暴,如无必要最好不要把“上下文行数”的选项改为 0,否则一些只有序号没有标题内容的“第一章”“第二章”可能会被误改。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 1威望 +2 铜币 +5 收起 理由
杨超越 + 2 + 5 论坛有您更精彩!

查看全部评分

回复

使用道具 举报

用户组:秀才

宠辱不惊,闲看庭前花开花落;去留无意,漫随天外云卷云舒

      UID
2535
      积分
797
      回帖
308
      主题
14
      发书数
10
      威望
626
      铜币
10988
      贡献
0
      阅读权限
40
      注册时间
2025-3-2
      在线时间
343 小时
      最后登录
2025-5-31
发表于 2025-4-27 11:30 | 显示全部楼层
其实中文和阿拉伯数字互转有对应的库,cn2an,没必要自己写
回复

使用道具 举报

用户组:版主

      UID
1796
      积分
485
      回帖
129
      主题
16
      发书数
9
      威望
398
      铜币
12363
      贡献
0
      阅读权限
100
      注册时间
2025-3-1
      在线时间
127 小时
      最后登录
2025-5-31
 楼主| 发表于 2025-4-27 11:32 | 显示全部楼层
Llinx 发表于 2025-4-27 11:30
其实中文和阿拉伯数字互转有对应的库,cn2an,没必要自己写

确实应该用现成的,我是没怎么看,让 AI 把逻辑差不多实现了就没管了哈哈。
回复

使用道具 举报

用户组:秀才

宠辱不惊,闲看庭前花开花落;去留无意,漫随天外云卷云舒

      UID
2535
      积分
797
      回帖
308
      主题
14
      发书数
10
      威望
626
      铜币
10988
      贡献
0
      阅读权限
40
      注册时间
2025-3-2
      在线时间
343 小时
      最后登录
2025-5-31
发表于 2025-4-27 11:34 | 显示全部楼层
edennow 发表于 2025-4-27 11:32
确实应该用现成的,我是没怎么看,让 AI 把逻辑差不多实现了就没管了哈哈。 ...

我之前也是让ai帮忙写,后面才发现有现成的轮子
回复

使用道具 举报

用户组:版主

      UID
1796
      积分
485
      回帖
129
      主题
16
      发书数
9
      威望
398
      铜币
12363
      贡献
0
      阅读权限
100
      注册时间
2025-3-1
      在线时间
127 小时
      最后登录
2025-5-31
 楼主| 发表于 2025-4-27 11:45 | 显示全部楼层
Llinx 发表于 2025-4-27 11:34
我之前也是让ai帮忙写,后面才发现有现成的轮子

最近试了一下用 gemini 那个 2.5 来纠错,发现挺好用的,不过要对比它那些修改项也挺费劲,也会有改错和莫名其妙的地方,希望以后它再搞好一点就轻松了。
[发帖际遇]: edennow 调戏牧羊犬,被咬,打防疫针,花费 2 铜币. 幸运榜 / 衰神榜
回复

使用道具 举报

用户组:秀才

宠辱不惊,闲看庭前花开花落;去留无意,漫随天外云卷云舒

      UID
2535
      积分
797
      回帖
308
      主题
14
      发书数
10
      威望
626
      铜币
10988
      贡献
0
      阅读权限
40
      注册时间
2025-3-2
      在线时间
343 小时
      最后登录
2025-5-31
发表于 2025-4-27 11:51 | 显示全部楼层
edennow 发表于 2025-4-27 11:45
最近试了一下用 gemini 那个 2.5 来纠错,发现挺好用的,不过要对比它那些修改项也挺费劲,也会有改错和莫 ...

gemini2.5pro我试了感觉编码方面还行,可惜每天免费也就只有25次请求。
ai出错挺正常的,有时候出幻觉就莫名其妙瞎编
回复

使用道具 举报

用户组:版主

      UID
1796
      积分
485
      回帖
129
      主题
16
      发书数
9
      威望
398
      铜币
12363
      贡献
0
      阅读权限
100
      注册时间
2025-3-1
      在线时间
127 小时
      最后登录
2025-5-31
 楼主| 发表于 2025-4-27 11:58 | 显示全部楼层
本帖最后由 edennow 于 2025-4-27 12:05 编辑
Llinx 发表于 2025-4-27 11:51
gemini2.5pro我试了感觉编码方面还行,可惜每天免费也就只有25次请求。
ai出错挺正常的,有时候出幻觉就 ...

用它那个网页端额度是不是多一点,我好像有试过 pro 模型超 25 次也能继续用的(可能记错了),虽然它那里写的也是一天限制 25 次。

我有试过把用脚本改的那些 diff 结果丢给它,它判断现成的结果相对好一些,还是能省不少事的,特别是那些的地得什么的。
回复

使用道具 举报

用户组:分区版主

我同阿公做嘢

重建论坛勋章

      UID
100
      积分
2826
      回帖
1131
      主题
12
      发书数
1
      威望
2253
      铜币
14870
      贡献
0
      阅读权限
100
      注册时间
2025-2-27
      在线时间
311 小时
      最后登录
2025-5-31
发表于 2025-4-27 17:07 | 显示全部楼层
自动插件里面的 “的地得”用法
一键更改效果还是不大行(也有可能是我的问题-。-)
不过其他功能特别好用!赞一个

期待再次升级-。-
回复

使用道具 举报

用户组:版主

      UID
1796
      积分
485
      回帖
129
      主题
16
      发书数
9
      威望
398
      铜币
12363
      贡献
0
      阅读权限
100
      注册时间
2025-3-1
      在线时间
127 小时
      最后登录
2025-5-31
 楼主| 发表于 2025-4-27 17:39 | 显示全部楼层
本帖最后由 edennow 于 2025-4-27 17:42 编辑
冥王 发表于 2025-4-27 17:07
自动插件里面的 “的地得”用法
一键更改效果还是不大行(也有可能是我的问题-。-)
不过其他功能特别好用 ...

具体是什么问题呢,正常的话用 extraMap 正确率还行吧,基本能到百分之九十以上,也可以把文本分享下看看。
[发帖际遇]: edennow 向女王献媚,收到打赏 3 铜币. 幸运榜 / 衰神榜
回复

使用道具 举报

用户组:分区版主

我同阿公做嘢

重建论坛勋章

      UID
100
      积分
2826
      回帖
1131
      主题
12
      发书数
1
      威望
2253
      铜币
14870
      贡献
0
      阅读权限
100
      注册时间
2025-2-27
      在线时间
311 小时
      最后登录
2025-5-31
发表于 2025-4-27 20:37 | 显示全部楼层
edennow 发表于 2025-4-27 17:39
具体是什么问题呢,正常的话用 extraMap 正确率还行吧,基本能到百分之九十以上,也可以把文本分享下看看 ...

噢噢  不是用的extramap  用的是txtformat词库-。- (③和④)
所以有点怪怪的词组   等下试试用extramap





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
[发帖际遇]: 冥王 集齐七龙珠召唤神龙降世,增加了 1 威望. 幸运榜 / 衰神榜
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2025-5-31 16:30 , Processed in 0.106644 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表