OCR (Optical Character Recognition ),即光学字符识别,指的是针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。简单的来说,OCR技术就是可以把图片上的文字识别出来,并以文本格式的形式提取出来。
该技术已广泛应用于生活中。比如很多翻译软件都有的拍照翻译功能,就利用了该技术。这里尝试使用百度OCR接口实现Android拍照识别文字功能。
这里以网络api的方式来进行识别。涉及到的技术有 retrofit+rxjava 进行网络请求,Android应用动态权限的申请,FileProvider,图片的base64转码,以及热门的MVP框架。
项目结构:
module目录下存放的是MVP架构的三个模块,bean目录下存放的是网络请求返回的数据类型,apiservice中存放的是retrofit有关网络请求的接口。
根据百度官方的请求方法定义接口方法:
@POST("rest/2.0/ocr/v1/general_basic") @FormUrlEncoded ObservablegetRecognitionResultByImage(@Field("access_token") String accessToken, @Field("image") String image);
该方法中,第一个参数是access_token(需申请百度文字识别的开发者资格,得到API key和Secret Key后获取),第二个参数则是String类型,这个参数是在本地将图片base64转码之后生成。
这些参数以POST的形式发送,按照百度OCR api 的要求,使用@FormUrlEncode注释。这里使用@Field的方式将参数加入请求体。可以看到Observable中的是RecognitionResultBean类型,从里面拿到服务器返回的文字识别信息。
定义好之后便可以构造retrofit对象进行调用。
Retrofit retrofit = new Retrofit.Builder() .baseUrl("https://aip.baidubce.com/") .addConverterFactory(GsonConverterFactory.create()) .addCallAdapterFactory(RxJava2CallAdapterFactory.create()) .build(); baiduOCRService = retrofit.create(BaiduOCRService.class);
rxjava+retrofit 在接口方法中的具体实现:
@Override public void getRecognitionResultByImage(Bitmap bitmap) { String encodeResult = bitmapToString(bitmap); baiduOCRService.getRecognitionResultByImage(ACCESS_TOKEN,encodeResult) .subscribeOn(Schedulers.io()) .observeOn(AndroidSchedulers.mainThread()) .subscribe(new Observer() { @Override public void onSubscribe(Disposable d) { } @Override public void onNext(RecognitionResultBean recognitionResultBean) { Log.e("onnext",recognitionResultBean.toString()); StringBuilder s = new StringBuilder(); List wordsResult = recognitionResultBean.getWords_result(); for (RecognitionResultBean.WordsResultBean words:wordsResult) { s.append(words.getWords()); } mView.updateUI(s.toString()); } @Override public void onError(Throwable e) { Log.e("onerror",e.toString()); } @Override public void onComplete() { } }); }
接口要求的参数类型为String,所以要对图片进行base64转码,转码方法:
private String bitmapToString(Bitmap bitmap){ ByteArrayOutputStream baos = new ByteArrayOutputStream(); bitmap.compress(Bitmap.CompressFormat.JPEG, 100, baos); byte[] bytes = baos.toByteArray(); return base64.encodeToString(bytes, base64.DEFAULT); }
调用此方法,便可以把图片类型转化成字符串类型。之后再对网路接口调用之后的回调方法进行定义。在调用成功后的onNext *** 作中,可以得到RecognitionResultBean类型参数。这个参数里含有图片所包含的文字信息,这里将所有文字取出,用StringBuilder连接成一个新的字符串返回View层。
相机功能调用首先在AndroidManifest清单文件中写明需要用到的权限(网络请求权限、数据的读取和存取权限以及相机权限):
调用相机功能的代码如下:
private void takePhoto(){ if (!hasPermission()) { return; } Intent intent = new Intent(); intent.setAction(MediaStore.ACTION_IMAGE_CAPTURE); String path = Environment.getExternalStorageDirectory().getAbsolutePath() + "/img"; if (new File(path).exists()) { try { new File(path).createNewFile(); } catch (IOException e) { e.printStackTrace(); } } String filename = new SimpleDateFormat("yyyyMMdd_HHmmss").format(new Date()); mTmpFile = new File(path, filename + ".jpg"); mTmpFile.getParentFile().mkdirs(); if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.M) { String authority = getPackageName() + ".provider"; imageUri = FileProvider.getUriForFile(this, authority, mTmpFile); } else { imageUri = Uri.fromFile(mTmpFile); } intent.putExtra(MediaStore.EXTRA_OUTPUT, imageUri); startActivityForResult(intent, CAMERA_REQUEST_CODE); }
调用相机之后重写onActivityResult方法,对返回拍照结果进行处理:
@Override protected void onActivityResult(int requestCode, int resultCode, Intent data) { if (requestCode == CAMERA_REQUEST_CODE) { if (requestCode == RESULT_OK){ Bitmap photo = BitmapFactory.decodeFile(mTmpFile.getAbsolutePath()); mPresenter.getRecognitionResultByImage(photo); imageView.setImageBitmap(photo); } } }
这样拍照成功的话,照片就将作为参数传递给之前定义好的接口方法,调用进行图片文字识别。等服务器成功返回识别结构之后,就会调用VIew层的updateUI,更新textview显示识别结果。
作者:吴越
原文链接
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)