Tesseract.js是一款基于JavaScript的开源OCR光学字符识别库,借助WebAssembly技术,将Google Tesseract OCR引擎完整移植至浏览器与Node.js环境。可在前端直接完成图片文字提取,支持百余种语言,包含简体中文、繁体中文、英、法、德等语种,适配文档扫描、实时视频文字识别、移动端离线OCR等多种业务场景。
1、官网入口:http://tesseract.projectnaptha.com/
2、开源地址:https://github.com/naptha/tesseract.js

1、全环境跨平台适配:
兼容浏览器多种引入方式,支持script标签、CDN、Webpack等,同时可在Node.js服务端稳定运行。
2、百余种语言精准识别:
内置100+语种训练数据包,简体、繁体中文识别表现优异,满足多语言文字提取需求。
3、WebAssembly高性能加速:
核心识别引擎基于WASM编译运行,内存占用更低,文字识别速度大幅提升。
4、多线程并行处理:
通过`createWorker`创建多线程工作进程,可在后台并行批量识别多张图片,不阻塞主线程。
5、模块化拆分易部署:
核心库与tessdata语言包完全解耦,支持自建CDN托管资源,规避网络波动造成的加载失败问题。
6、轻量化升级更适配长驻应用:
v6.0.0版本进一步精简包体积、优化内存调度,适合长期运行的网页端与离线Web应用集成。