微调托书文档信息提取的思路?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 777 days ago, the information mentioned may be changed or developed.

想要提取这种托书里面的字段,应该用什么模型去微调比较好.

可以拿来训练的样本量不会太多.拿过 paddlenlp 的 UIE-X 训练过,感觉效果不是会很好,对多行文本支持不怎么样.

有没有大佬能指点一下思路

4 replies • 2024-03-14 16:55:00 +08:00

lucifer69

Mar 14, 2024

这种固定位置的印刷字体文档，不能直接 ocr （或者切割图片后各部分单独 ocr ）后提取吗？

cccclk

Mar 14, 2024

@lucifer69 也不是完全固定的,需要适配多种奇奇怪怪的格式

musi

Mar 14, 2024

带着位置信息一起发给 gpt ，让 gpt 处理

cccclk

Mar 14, 2024

@musi 打算自己训练 GPT 成本太高也不稳定