OCR-文本图像合成工具

1. Text Recognition Data Generator

Github地址: https://github.com/Belval/TextRecognitionDataGenerator

官方文档:https://textrecognitiondatagenerator.readthedocs.io/en/latest/index.html

安装:

以下根据个人需要:

git clone 解压后进入 /trdg/bin 安装目录:

  • pictures/ 文件夹内存放背景图,可以多添加一些图片用于丰富生成的合成图片;
  • fonts/ 文件夹内 cn/ en/分别存放中、英文字体文件(.ttf格式),可以自己在网上下载不同ttf文件放入文件夹内;
  • string_generator.py 定义了图片上的文本如何选取,可以自行定义(博主在Centos7服务器上中文好像一直有乱码问题,只能修改string 的编码)
  • data_generator.py 是按照给定参数生成图片,最好在里面加上 try / except,大规模合成数据万一有一个case报错就要重新生成,很麻烦,相应的在 bin/trdg 文件中修改相应的生成 labels.txt 的代码,保证一致(这里也可能涉及到保存的中文文本乱码,如果是的话也要修改string的编解码)

生成命令(示例,具体见官方文档):

  • -l cn: language 为中文
  • -c 1000000: 生成1000000张图
  • -d 1: 文字按正弦函数曲线分布(0为不弯曲,1为sin,2为cos)
  • -rs: 图片文字随机选取;
  • -b 3: 背景图像从pictures文件夹中的图像上随机截取(0为高斯白噪声背景,1为白色背景,2为quasicrystal,3为自定义图片)
  • -bl 1 -rbl: 随机模糊,1为模糊的kernel size
  • -tc '#000000, #888888': 颜色变化区间
  • -f 64: 水平分布文字图像的高(像素64)
  • --output_dir 'sin-100w': 输出文件夹

2. Text Render

Github地址:https://github.com/Sanster/text_renderer

参见 github 的 README.md.

3. SynthText

Github地址: https://github.com/ankush-me/SynthText

参考链接


更换pip源到国内镜像

pip国内的一些镜像

python国内源

阿里云 https://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
豆瓣(douban) http://pypi.douban.com/simple/
清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/

修改源
临时使用:

可以在使用pip的时候在后面加上-i参数,指定pip源为国内源

永久修改:

Linux/macOS:

修改 ~/.pip/pip.conf (没有就创建一个), 内容如下:

对于当前用户不是root,而有时候需要使用sudo安装的情况,上述设置是无效的。需要在root用户目录也设置一下,一般情况下配置文件默认是/root/.pip/pip.conf

Windows:
直接在user目录中创建一个pip目录,如:C:\Users\xx\pip,新建文件pip.ini,内容如下

参考链接


更换pip源到国内镜像

解决macOS 10.15.2下Python的tkinter库Entry无法输入中文

问题描述

macOS 10.15.2下使用 tkinter Entry 输入框,无法输入中文,不管怎么样都只能输入英文,只能复制进去中文,交互体验很不好ಥ_ಥ。

我的版本是 macOS 10.15.2python 3.7.5

继续阅读解决macOS 10.15.2下Python的tkinter库Entry无法输入中文

在用BeautifulSoup解析HTML前对其中以JavaScript渲染部分的处理

在命令行运行:

即可安装该模块。

例子如下:

参考链接


Python tkinter实现图片标注

安装依赖

源代码:

参考链接


Python HttpServer服务器

参考链接


Visual Studio Code调试时报错"raise RuntimeError('already started')"

Visual Studio Code远程调试pytorch模型训练时,报错如下:

解决办法,在.py文件头添加如下语句:

更新:
如果你的工程是基于pytorch的,那么检查自己的dataLoader,是否使用了num_workers参数。当使用该参数时,可能会报上述错误。解决办法是将num_workers设置为0

参考链接


vscode调试时报错raise RuntimeError('already started')

Anaconda conda切换为国内源

  • Windows下

1 添加清华源

命令行中直接使用以下命令

2 添加中科大源

  • Linux下

将以上配置文件写在~/.condarc

切记

在修改完成之后,一定要重新启动一个新的Shell, 否则设置不生效。

参考链接