利用opencv对拍摄图片进行文字识别介绍_F11 - 专业站长和开发者的学习网站

分享到

利用opencv对拍摄图片进行文字识别介绍

python 来源：互联网作者：佚名发布时间：2024-03-30 23:10:27 人浏览

摘要

代码示例： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81

代码示例：

import cv2 as cv

import numpy as np

import pytesseract

from PIL import Image

img = cv.imread('test.jpg')

rows, cols, _ = img.shape

img = cv.resize(img, (int(cols/2), int(rows/2)))

img = cv.cvtColor(img, cv.COLOR_BGR2GRAY)

nrows, ncols = img.shape

print(cols, ncols, rows, nrows)

gray_blurred = cv.GaussianBlur(img, (5, 5), 0)

flag = 200

lines = []

while len(lines) != 4:

# 使用Canny边缘检测

edges = cv.Canny(gray_blurred, 50, 150, apertureSize=3)

lines = cv.HoughLines(edges, 1, np.pi / 180, flag)

if lines is None:

lines = []

if flag < 80:

raise Exception('未找到合适的边缘处理参数')

flag -= 5

print(flag)

nlines = []

# 如果找到了直线，使用它们来计算仿射变换矩阵

if lines is not None:

for rho, theta in lines[:, 0]:

a = np.cos(theta)

b = np.sin(theta)

x0 = a * rho

y0 = b * rho

x1 = int(x0 + 1000 * (-b))

y1 = int(y0 + 1000 * (a))

x2 = int(x0 - 1000 * (-b))

y2 = int(y0 - 1000 * (a))

cv.line(img, (x1, y1), (x2, y2), (0, 0, 255), 2)

nlines.append([(x1, y1), (x2, y2)])

points = []

for i in range(len(nlines) - 1):

for j in range(i + 1, len(nlines)):

line = nlines[i]

x1, y1 = line[0]

x2, y2 = line[1]

line1 = nlines[j]

x3, y3 = line1[0]

x4, y4 = line1[1]

try:

u = ((x4-x3)*(y1-y3) - (y4-y3)*(x1-x3)) / ((y4-y3)*(x2-x1) - (x4-x3)*(y2-y1))

except Exception as e:

continue

x = x1 + u * (x2 - x1)

y = y1 + u * (y2 - y1)

if x > 0 and y > 0 and x < ncols and y < nrows:

points.append((x, y))

pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'

center = (int(ncols/2), int(nrows/2))

pstmap = {}

for point in points:

x, y = point

cx, cy = center

if x < cx and y < cy:

pstmap['lt'] = point

elif x > cx and y < cy:

pstmap['rt'] = point

elif x > cx and y > cy:

pstmap['rb'] = point

else:

pstmap['lb'] = point

pst1 = np.float32([pstmap['lt'], pstmap['rt'], pstmap['rb'], pstmap['lb']])

pst2 = np.float32([[0, 0], [ncols, 0], [ncols, nrows], [0, nrows]])

M = cv.getPerspectiveTransform(pst1, pst2)

dst = cv.warpPerspective(img, M, (ncols, nrows))

x1, y1 = 0, 0

def mouse_callback(event, x, y, flags, param):

global x1, y1

if event == cv.EVENT_LBUTTONDOWN:

x1, y1 = x, y

elif event == cv.EVENT_LBUTTONUP:

x2, y2 = x, y

wimg = dst[y1:y2, x1:x2]

_, wimg = cv.threshold(wimg, 80, 255, cv.THRESH_BINARY)

wimg = cv.bitwise_not(wimg)

cv.imwrite('test_dst.jpg', wimg)

image = Image.open('test_dst.jpg')

# 打印选定区域的坐标

print(f"({x1}, {y1}) -> ({x2}, {y2})")

print(pytesseract.image_to_string(image, lang='chi_sim'))

cv.namedWindow('dst')

cv.setMouseCallback("dst", mouse_callback)

cv.imshow('img', img)

cv.imshow('dst', dst)

print(dst[2])

cv.waitKey(0)

cv.destroyAllWindows()

方法：

1. 首先读取图片，因为我手机拍摄图片尺寸太大，所以进行了缩放

2. 对图片进行高斯模糊，方便进行边缘处理

3. 从高到低适配不同的阈值检测图片内容边缘

4. 通过反向霍夫变换获取确定边缘直线的四个点

5. 通过直线两两相交确定四个定点

6. 进行透视变换

7. 添加鼠标事件，监测鼠标选定区域

8. 鼠标选定区域后，裁剪图片，对图片进行二值化处理，我这里做了文字黑白反转

9. 利用pytesseract对裁剪后的图片进行文字识别

注意事项：

1. 选择的文字区域会影响识别成功率，如果文字区域紧贴文字，可能会失败，盲猜影响了特征提取

2. 图片尺寸大小会影响边缘检测，不缩放图片时，阈值调整不当的话，很容易生成N条边缘直线，阈值怎么选定请了解霍夫变换的原理。

识别效果（加了二值化处理的准确度会很好）：

补充：几个常用的OpenCV二值化代码示例

1. 全局阈值二值化：

import cv2

img = cv2.imread('image.jpg', 0)

_, thresh = cv2.threshold(img, 127, 255, cv2.THRESH_BINARY)

cv2.imshow('image', img)

cv2.imshow('threshold', thresh)

cv2.waitKey(0)

cv2.destroyAllWindows()

2. 自适应阈值二值化：

import cv2

img = cv2.imread('image.jpg', 0)

thresh = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_MEAN_C, cv2.THRESH_BINARY, 11, 2)

cv2.imshow('image', img)

cv2.imshow('adaptive threshold', thresh)

cv2.waitKey(0)

cv2.destroyAllWindows()

3. Otsu二值化：

import cv2

img = cv2.imread('image.jpg', 0)

_, thresh = cv2.threshold(img, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)

cv2.imshow('image', img)

cv2.imshow('Otsu threshold', thresh)

cv2.waitKey(0)

cv2.destroyAllWindows()

这些示例代码可以根据需要进行修改和调整，以适应不同的图像处理任务。

您可能感兴趣的文章 :

原文链接 :

Tag : opencv(44)

python条件判断中not、is、is not、is not None、is Non

1.not A 是判断A是否为0、False、空字符串、空列表、空字典、空元组以及None，满足任一条件即返回True 2.is和is not 是不是某种对象 3.is not None和
利用opencv对拍摄图片进行文字识别介绍

代码示例： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58
Python实现Excel和CSV之间的相互转换

通过使用Python编程语言，编写脚本来自动化Excel和CSV之间的转换过程，可以批量处理大量文件，定期更新数据，并集成转换过程到自动化工作
Python实现在Word中创建表格并填入数据与图片

在Word中，表格是一个强大的工具，它可以帮助你更好地组织、呈现和分析信息。本文将介绍如何使用Python在Word中创建表格并填入数据、图片
Python实现读取.nc数据并提取指定时间与经纬度维

我们之前介绍过.nc格式的数据，其是NetCDF（Network Common Data Form）文件的扩展名，是一种常用的科学数据存储格式，多用于存储科学和工程领
机器学习、深度学习和神经网络之间的区别和联

在人工智能领域，机器学习、深度学习和神经网络是最常见的技术术语。机器学习神经网络深度学习深度神经网络。机器学习包括了神经网
Python分割单词和转换命名法的实现

分割单词将一个标识符分割成若干单词存进列表，便于后续命名法的转换先引入正则表达式包 1 import re 至于如何分割单词看个人喜好，如
Python中OS module的使用介绍

Python的os模块是用于与操作系统进行交互的标准库之一，它提供了许多有用的函数和变量，以便处理文件和目录。下面是一些常见的os模块函
使用Python实现汉诺塔问题介绍

汉诺塔问题是一个经典的问题。汉诺塔（Hanoi Tower），又称河内塔，源于印度一个古老传说。大梵天创造世界的时候做了三根金刚石柱子，在
自然语言处理NLP TextRNN实现情感分类

概要在自然语言处理（NLP）领域，情感分析及分类是一项十分热门的任务。它的目标是从文本中提取出情感信息和意义，通常分为两类：正