利用Workflow做OCR文字识别

背景

有许多人分享文字的时候总是图自己方便，直接通过分享截图的方式将有用信息进行分享。而我们拿到图片之后还需要将文字人工提取出来，内容短的时候还可以通过暂时记忆将所需内容快速记忆，然而当需要提取大量内容时，就非常麻烦了。于是就想到了OCR文字识别工具，用了一段时间的OCR软件，基本可以完成需求，但还是觉得很不便利。追求效率的我想到了解决此种重复性动作的最佳工具Workflow。

思路

搞清出我们的目的，就可以着手进行操作了。想想这个过程的应该有以下几个步骤。

输入用的图片可以用图库中的图片，也可以用相机📷拍摄获取。
OCR服务可以通过网上的API得到，我用的是ocr.space，该网站提供免费使用的API key，一天可以有500次请求，个人使用足以。只是对图片大小有所限制，需要在1MB之内。可以查看官方API进行注册API key和了解API使用方式。
该网站提供GET请求和POST请求的API，对于Workflow来说，两种请求的方式实现上差异不大，我这里选择的是POST请求方式。必要的参数有apikey与url、file和base64image的一种，这三种格式是网站提供了3种提供图片资源的方式，按照个人的需求，使用file最为便捷。由于个人使用需要将图片信息转换为简体中文，所以还要加入一个参数language。网站支持很多语言，需要的可以去查询🔍对应的简码，其中简体中午的简码是“chs”，繁体中文为“cht”，个人测试感觉使用“cht”效果更好。
根据参数网站会返回JSON字符串。剩下的就是解析JSON字符串获取到图片中的文字信息。然后根据分割符进行分割。选取需要的内容放置在系统剪切板📋中方便使用。

好了，至此为止思路已经理清了。剩下的就是开始制作Workflow了。

制作步骤

按照思路所指出的内容，第一步是获取待分析的图片，这里以图库图片为例。开始设置Workflow属性，选择Action Extension选项，Accepts选择Images。
由于该网站免费用户仅支持1MB的图，所以需要对图片先做预处理。自然而然想到了While循环，当图片大小大于1MB时进行缩放，直到满足条件。但Workflow似乎不支持While循环，猜想是怕造成死循环的可能？我这里采用Repeat语句完成，个人在一直使用之中不断的调整该次数和缩放参数，目前暂定3次缩放，缩放比例均以上一次宽度的0.8倍，高度自适应进行。满足条件则不进行缩放。由于步骤截图上来太长，就不贴上来了。最后会分享给Workflow的地址。可以根据需要进行修改，虽然有些长，但逻辑是清晰的，只要有清晰的思路，过程就很容易理解。
下面就是进行网络请求了，传入网站中需要的apikey，file和language对应的值，就可以得到网站返回的JSON字符串了。大致样式如下（如何参数传入的不同，JSON格式会有出入，需要参考官方API并自己尝试）：

{
    "ParsedResults": [
        {
            "TextOverlay": {
                "Lines": [ ], 
                "HasOverlay": false, 
                "Message": "Text overlay is not provided as it is not requested"
            }, 
            "FileParseExitCode": 1, 
            "ParsedText": ""Traditional\r\nSimpIified\r\n開\r\n开\r\nOpen\r\n图\r\nPicture/\r\nDiagram\r\n乐\r\nFun\r\n一了．\r\nLearn\r\n"", 
            "ErrorMessage": "", 
            "ErrorDetails": ""
        }
    ], 
    "OCRExitCode": 1, 
    "IsErroredOnProcessing": false, 
    "ErrorMessage": null, 
    "ErrorDetails": null, 
    "ProcessingTimeInMilliseconds": "902", 
    "SearchablePDFURL": "Searchable PDF not generated as it was not requested."
}

接着将是提取JSON字符串中的有用信息，从上面的JSON中可以发现我们需要的内容就是key为ParsedText所对应的value值了。首先需要获取到key为ParsedResults的内容，由于其内容在一对方括号中包裹，所以需要用到Repeat with Each的语句将我们需要的内容解析出来。
图片中可以有许多的文字信息，这里需要筛选出我们需要的内容，我们上一步从JSON中取出的内容是一长串的内容，但我们发现这些内容都是由换行符“\r\n”隔开的，我们首先用Split Text语句按照分割符为New Lines的方式将获取到的文本内容进行分割，然后使用Choose from list语句弹出对话框选取需要的内容再进行拼接就得到了我们需要的内容了。

总结

这里主要时从日常出发，对于身边经常反复要做的事情，利用工具，寻求更高效的完成事情的思路和实践过程，这个Workflow可能对不懂编程或是刚接触到Workflow这个软件，想要结合软件自己实现功能的新人来说有些稍显复杂。这次分享还是重在从实际问题出发，如何利用Workflow工具进行效率提升的整个过程。制作Workflow的过程其实就是一个分析问题，发现问题，解决问题的过程。整个过程之中理清思路是最重要的。在清晰的思路面前，如果上述某个步骤不太熟悉也没有关系，只要稍加学习和钻研，想要解决的问题都会变得容易的。

下附本次分享的Workflow的地址，只需要填入自己申请到的API Key即可以使用。

OCR Workflow

题外话

这是我第一次在少数派平台写东西，以至于写了一半想点预览看看手抖直接发布出去了一次。平日里一直在汲取，一直也没有分享一些自己的心得体会（主要是懒🤦‍♂️），新的一年里，希望可以和大家一起进步，也可以分享一些自己的心得体会。如果能有人用的上，就更好了。一起不断进步吧。