我正在做一个项目,在这个项目中我分析了由Tesseract生成的文本.在该文本中,我正在寻找具有以下语法的代码:CI XXXX.然而,由于Tesseract经常错误识别单词,我创建了以下正则表达式:
[\s]?..\s?(\S\d{3}|\d\S\d{2}|\d{2}\S\d|\d{3}\S)[\s]?
个
该正则表达式查找由两个字母、一个可选空格和最后四个数字组成的代码,其中一个数字可能是字符.我没有在正则表达式的开头包含"CI",因为Tesseract通常无法识别它.此正则表达式适用于大多数情况,如下图所示,但"nCI1234n"的情况除外.
So my question is : can we improve this regular expression, or should I use an if statement in my code (C#) to look for possible four digits and then take the previous two characters?