swift – 谷歌视觉文本检测响应逐行_app

概述我正在使用Google vision api在收据图片上执行文字识别.我得到了一些很好的结果,但返回的格式非常不可靠.如果文本之间存在较大间隙,则读数将打印下面的行而不是旁边的行. 例如,使用以下Recipt Image我得到以下响应： 4x Löwenbräu Original a 3,00 12,00 1 8x Weissbier dunkel a 3,30 26,401 3x 我正在使用Google vision API在收据图片上执行文字识别.我得到了一些很好的结果,但返回的格式非常不可靠.如果文本之间存在较大间隙,则读数将打印下面的行而不是旁边的行.

例如,使用以下Recipt Image我得到以下响应：

4x Löwenbräu Original a 3,00 12,00 1    8x WeissbIEr dunkel a 3,30 26,401    3x Hefe-WeissbIEr a 3,30 9,90 1    1x Saft 0,25    1x Grosses Wasser    1x vegetarische Varia    1x Gyros    1x Baby Kalamari Gefu    2x Gyros FolIE    1x Schafskäse Ofen    1x Bifteki Metaxa    1x Schweinefilet Meta    1x St ifado    1x Tee    2,50 1    2,40 1    9,90 1    8,90 1    12,90    a 9,9019,80 1    6,90 1    11,90 1    13,90 1    14,90 1    2,10 1

在尝试将价格与文本等联系起来时,哪些开始很好并且符合预期,但后来变得相当有用.理想的响应如下：

4x Löwenbräu Original a 3,00 1    8x WeissbIEr dunkel    a 3,401    3x Hefe-WeissbIEr      a 3,25                  2,50 1    1x Grosses Wasser             2,40 1    1x vegetarische Varia         9,90 1    1x Gyros                      8,90 1    1x Baby Kalamari Gefu        12,90 1    2x Gyros FolIE         a 9,80 1    1x Schafskäse Ofen            6,90 1    1x Bifteki Metaxa            11,90 1    1x Schweinefilet Meta        13,90 1    1x St ifado                  14,90 1    1x Tee                        2,10 1

或者接近那个.

是否有格式化请求可以添加到API以获得不同的响应？我在使用tessereact时已经取得了成功,您可以在其中更改输出格式以实现此结果,并且想知道视觉API是否有类似的东西.

我理解API返回可以使用的字母坐标,但我希望不必进入那种深度.

解决方法您可以为JsON请求添加功能提示.对于这样的收据的图像,document_TEXT_DETECTION给出了良好的结果：

{  "requests": [    {      "image": {        "source": {          "imageUri": "https://i.stack.imgur.com/TRTXo.png"        }      },"features": [        {          "type": "document_TEXT_DETECTION"        }      ]    }  ]}

您可以复制上面的JsON并将其粘贴到documentation page上的Try This API窗格中的Request Body中.结果：

4x LOwenbräu Original a 3,00 18x WeissbIEr dunkel a 3,3026,40 13x Hefe-WeissbIEr a 3,30990 11x Saft 0,25 2,50 11x Grosses Wasser 2,40 11x vegetarische Varia 9,90 11x Gyros 8,90 11x Baby Kalamari Gefu 12,90 !2x Gyros FolIE a 9,80 11x Schaf skäse Ofen 6,90 11x Bifteki Metaxa 11,90 11x Schweinefilet Meta 13,90 11x Stifado 14,90 11x Tee 2,10 1

目前,GoogIE Vision的配置远不如Tesseract.因为Google支持这两个项目,所以猜测未来哪个项目将获得更高优先级？

总结

以上是内存溢出为你收集整理的swift – 谷歌视觉文本检测响应逐行全部内容，希望文章能够帮你解决swift – 谷歌视觉文本检测响应逐行所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/web/1006366.html

swift – 谷歌视觉文本检测响应逐行

发表评论

评论列表（0条）