Android基于百度OCR识别图片中的文字_随笔

Android基于百度OCR识别图片中的文字

OCR （Optical Character Recognition ），即光学字符识别，指的是针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。简单的来说，OCR技术就是可以把图片上的文字识别出来，并以文本格式的形式提取出来。
该技术已广泛应用于生活中。比如很多翻译软件都有的拍照翻译功能，就利用了该技术。这里尝试使用百度OCR接口实现Android拍照识别文字功能。

请求模块定义

这里以网络api的方式来进行识别。涉及到的技术有 retrofit+rxjava 进行网络请求，Android应用动态权限的申请，FileProvider，图片的base64转码，以及热门的MVP框架。

项目结构：

module目录下存放的是MVP架构的三个模块，bean目录下存放的是网络请求返回的数据类型，apiservice中存放的是retrofit有关网络请求的接口。

根据百度官方的请求方法定义接口方法：

    
    @POST("rest/2.0/ocr/v1/general_basic")
    @FormUrlEncoded
    Observable getRecognitionResultByImage(@Field("access_token") String accessToken, @Field("image") String image);

该方法中，第一个参数是access_token（需申请百度文字识别的开发者资格，得到API key和Secret Key后获取），第二个参数则是String类型，这个参数是在本地将图片base64转码之后生成。

这些参数以POST的形式发送，按照百度OCR api 的要求，使用@FormUrlEncode注释。这里使用@Field的方式将参数加入请求体。可以看到Observable中的是RecognitionResultBean类型，从里面拿到服务器返回的文字识别信息。

定义好之后便可以构造retrofit对象进行调用。

 Retrofit retrofit = new Retrofit.Builder()
                .baseUrl("https://aip.baidubce.com/")
                .addConverterFactory(GsonConverterFactory.create())
                .addCallAdapterFactory(RxJava2CallAdapterFactory.create())
                .build();

        baiduOCRService = retrofit.create(BaiduOCRService.class);

rxjava+retrofit 在接口方法中的具体实现：

  @Override
    public void getRecognitionResultByImage(Bitmap bitmap) {

        String encodeResult = bitmapToString(bitmap);

        baiduOCRService.getRecognitionResultByImage(ACCESS_TOKEN,encodeResult)
                .subscribeOn(Schedulers.io())
                .observeOn(AndroidSchedulers.mainThread())
                .subscribe(new Observer() {
                    @Override
                    public void onSubscribe(Disposable d) {

                    }

                    @Override
                    public void onNext(RecognitionResultBean recognitionResultBean) {
                        Log.e("onnext",recognitionResultBean.toString());
                        StringBuilder s = new StringBuilder();
                        List wordsResult = recognitionResultBean.getWords_result();
                        for (RecognitionResultBean.WordsResultBean words:wordsResult) {
                            s.append(words.getWords());
                        }
                        mView.updateUI(s.toString());
                    }
                    @Override
                    public void onError(Throwable e) {
                        Log.e("onerror",e.toString());
                    }
                    @Override
                    public void onComplete() {
                    }
                });
    }

接口要求的参数类型为String，所以要对图片进行base64转码，转码方法：

    private String bitmapToString(Bitmap bitmap){
        ByteArrayOutputStream baos = new ByteArrayOutputStream();
        bitmap.compress(Bitmap.CompressFormat.JPEG, 100, baos);
        byte[] bytes = baos.toByteArray();
        return base64.encodeToString(bytes, base64.DEFAULT);
    }

调用此方法，便可以把图片类型转化成字符串类型。之后再对网路接口调用之后的回调方法进行定义。在调用成功后的onNext *** 作中，可以得到RecognitionResultBean类型参数。这个参数里含有图片所包含的文字信息，这里将所有文字取出，用StringBuilder连接成一个新的字符串返回View层。

相机功能调用

首先在AndroidManifest清单文件中写明需要用到的权限（网络请求权限、数据的读取和存取权限以及相机权限）：

调用相机功能的代码如下：

 private void takePhoto(){

        if (!hasPermission()) {
            return;
        }

        Intent intent = new Intent();
        intent.setAction(MediaStore.ACTION_IMAGE_CAPTURE);
        String path = Environment.getExternalStorageDirectory().getAbsolutePath() + "/img";
        if (new File(path).exists()) {
            try {
                new File(path).createNewFile();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        String filename = new SimpleDateFormat("yyyyMMdd_HHmmss").format(new Date());
        mTmpFile = new File(path, filename + ".jpg");
        mTmpFile.getParentFile().mkdirs();

        if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.M) {
            String authority = getPackageName() + ".provider";
            imageUri = FileProvider.getUriForFile(this, authority, mTmpFile);
        } else {
            imageUri = Uri.fromFile(mTmpFile);
        }
        intent.putExtra(MediaStore.EXTRA_OUTPUT, imageUri);

        startActivityForResult(intent, CAMERA_REQUEST_CODE);

    }

调用相机之后重写onActivityResult方法，对返回拍照结果进行处理：

    @Override
    protected void onActivityResult(int requestCode, int resultCode, Intent data) {
        if (requestCode == CAMERA_REQUEST_CODE) {
            if (requestCode == RESULT_OK){
                Bitmap photo = BitmapFactory.decodeFile(mTmpFile.getAbsolutePath());
                mPresenter.getRecognitionResultByImage(photo);
                imageView.setImageBitmap(photo);
            }
        }
    }

这样拍照成功的话，照片就将作为参数传递给之前定义好的接口方法，调用进行图片文字识别。等服务器成功返回识别结构之后，就会调用VIew层的updateUI，更新textview显示识别结果。

作者：吴越

原文链接

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5660337.html

Android基于百度OCR识别图片中的文字

发表评论

评论列表（0条）