找回密码
 注册
查看: 17755|回复: 11

图片里的文字可以用什么软件提取出来转为WORD

[复制链接] |自动提醒
阅读字号:

2562

回帖

0

积分

3299

资产值

入门会员 Rank: 1

注册时间
2005-4-10
发表于 2007-2-26 13:13:02| 字数 53| - 中国–浙江–台州–椒江区 电信 | 显示全部楼层 |阅读模式
悬赏20资产值已解决
一文件,是pdf格式,图片格式也有,怎么把里面的文字提取出来,打字实在太多了*.*lll

什么软件可以搞定?
T42 2373 K1U 1.7g 512*2  ati7500 120G COMBO BT 指纹

67

回帖

0

积分

160

资产值

入门会员 Rank: 1

注册时间
2006-2-15
发表于 2007-2-26 13:24:59| 字数 8| - 中国–广东–深圳 电信 | 显示全部楼层
找一款OCR试试
X31  1.3  512  5K100 80G
回复 支持 反对

使用道具 举报

2万

回帖

10

积分

5万

资产值

高级会员 Rank: 2Rank: 2

注册时间
2007-2-21
发表于 2007-2-26 13:39:37| 字数 506| - 中国–广东 联通数据上网公共出口 | 显示全部楼层
分两种情况:
1:您的PDF文件是由WORD,EXCEL或者其他格式的文字图像混合格式的文件生成的PDF文件,当然是使用 Adobe Acobat 了(制作PDF文件也是用Adobe Acrobat)在您的电脑中安装了Acrobat之后,您的打印机那里多了台 Acrobat Distiller,用这个作为打印机打印,就可以将Office文件生成PDF文件,供 Acrobat PDF Reader 阅读, 当您想提取这些文件中的文字信息的时候,用 Adobe Acrobat打开文件, 选择另存为“ RTF ”文件,所有的字符都出现了,但是格式会有比较大的损失。特别是图文混排的情况,基本上格式不会保留。
注意: PDF Reader是自由分发的免费软件, 但是 Adobe Acrobat不是免费的, 但可以买D版的光盘,5.01,6.01都有,需要注册码的(不要买太高的版本)。

2)如果您的PDF文件是通过扫描纸张文件的过程制作的,那只有使用OCR(光学字符识别)软件来识别了。
如何区分文件类型:
1:从文字字符的分辨率可以看到类型,另外改变页面的百分比大小可以识别。
2:如果是由字符生成的PDF文件,使用Adobe Acrobat可以小范围更改文本的内容。
T60-2048X1536,W550s-2880X1620,X1C-2560X1440-16G 1T,T480s i7, P1-X2176M-64G-P2000-4K-2TNVMEX2 RAID0
回复 支持 反对

使用道具 举报

1万

回帖

1

积分

1万

资产值

初级会员 Rank: 1

注册时间
2006-12-1
发表于 2007-2-26 14:00:33| 字数 32| - 中国–广东–深圳–南山区 电信 | 显示全部楼层
图片里面的可以用 清华TH-OCR 9.0绿色版 试试,识别率还不错 !
每一张看似幸福的面孔背后都有一坨咬紧牙关疲惫不堪的灵魂......
Thinkpad  X60 | X61t | T60
回复 支持 反对

使用道具 举报

2万

回帖

10

积分

5万

资产值

高级会员 Rank: 2Rank: 2

注册时间
2007-2-21
发表于 2007-2-26 14:07:04| 字数 50| - 中国–广东 联通数据上网公共出口 | 显示全部楼层
RTF格式的文件时可以编辑的,另存为WORD就可以从新排版。
我们经常使用这种方法 “破解” PDF文件。
T60-2048X1536,W550s-2880X1620,X1C-2560X1440-16G 1T,T480s i7, P1-X2176M-64G-P2000-4K-2TNVMEX2 RAID0
回复 支持 反对

使用道具 举报

116

回帖

3

积分

640

资产值

中级会员 Rank: 2Rank: 2

注册时间
2005-11-5
发表于 2007-2-26 14:36:49| 字数 77| - 中国–广东–深圳 电信 | 显示全部楼层
用OCR软件,专业的如清华的或尚书,其实用office自带的Microsoft Office Document Imaging也可以实现OCR功能,效果还不错。
回复 支持 反对

使用道具 举报

652

回帖

0

积分

1743

资产值

入门会员 Rank: 1

注册时间
2005-1-27
发表于 2007-2-26 14:39:48| 字数 23| - 中国–重庆–重庆–渝中区 联通/联通信息港 | 显示全部楼层
微软那个实在不敢恭维,其他的OCR不知道如何。
回复 支持 反对

使用道具 举报

2562

回帖

0

积分

3299

资产值

入门会员 Rank: 1

注册时间
2005-4-10
 楼主| 发表于 2007-2-26 15:56:02| 字数 15| - 中国–浙江–台州–椒江区 电信 | 显示全部楼层
搞定了,就是效果不咋滴,NB送
T42 2373 K1U 1.7g 512*2  ati7500 120G COMBO BT 指纹
回复 支持 反对

使用道具 举报

1万

回帖

113

积分

1万

资产值

至尊会员I Rank: 4Rank: 4Rank: 4Rank: 4

注册时间
2006-11-4
年全勤勋章2022银牌荣誉勋章(注册10年以上会员)
发表于 2007-2-26 22:43:47| 字数 164| - 中国–广东–东莞 电信 | 显示全部楼层
有几款现成的转换软件推荐如下:
1.ScanSoft PDF Converter 2.0----------41M左右
2. SolidConverterPDF---------------------16M左右
3.Foxit PDF Editor 1.2.0419 汉化版---1.2M左右

建议GOOGLE搜一下,我下载的地方忘记了
第一款比较好用
希望如火,失望如烟,生活总是一边点火,一边冒烟...
回复 支持 反对

使用道具 举报

124

回帖

0

积分

700

资产值

入门会员 Rank: 1

注册时间
2006-4-1
发表于 2007-3-3 15:47:43| 字数 1,391| - 美国 Verizon | 显示全部楼层
清华文通TH-OCR 9.0 光盘完全版

软件大小:74000 KB
软件语言:简体中文
软件介绍:
OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。

TH-OCR是清华大学自1985年就开始研发的,TH是TsingHua(清华)的缩写,TH-OCR代表北京清华紫光文通信息技术有限公司开发的 OCR软件。在国家“863”计划支持下,持续了十多年的科研成果,从1.0版本开始已经升级到现在的9.0版本。独家真正实现了汉英混排同时识别,在国际上首次突破了OCR产品只能处理汉字或英文单一文字的局限性,新增了东方文字(简繁汉、日文、韩文)识别功能,对日文和韩文与英文混排文档的识别水平甚至超过日本和韩国对本国文字的识别水平,在国内、外产生了重大的影响,并连续3年被中国软件行业协会评为优秀软件产品,成为汉字输入技术的一座里程碑。 TH-OCR9.0版本已应用到了包括电子政务、电子出版物、报社、银行、邮政、税务、图书馆等多个领域,成为国内OCR市场的先锋。

本届两会代表的所有提案全部采用了我国自主知识产权的世界识别领域领先产品——清华紫光文通的TH-OCR9.0进行录入识别,它以准确的识别率、优异的识别速度博得了两会工作人员的交口称赞。而清华TH-OCR技术在两会上的成功应用更论证了我国也完全有实力拥有自己的卓越技术。

TH-OCR的突出特点:
◇ 汉英双语同时混排,识别率最高,居世界领先水平。
◇ 可以识别黑白、灰度、彩色图像,可以读取多种图像格式。
◇ 首创对识别结果进行电子文档版面复原功能,所见即所得。
◇ 首创日文、韩文、日英混排、韩英混排识别功能,识别率98%以上。

TH-OCR的六大优势:

1. 是唯一可以识别2万多汉字的多体文字识别系统,汉字识别国内最优。

2. 汉字和英文混排、日文和英文混排、韩文和英文混排同时识别。

3. 汉字识别率最高。清华紫光文通TH-OCR经过"863"智能专家组对数十万字的指标评测和中国软件评测中心对产品的严格测试,识别正确率超过99.5%,代表了目前印刷体文字识别的最高水平。

4. 支持多种环境接口。清华紫光文通TH-OCR支持WINDOWS环境和GB、BIG5、GBK、JIS、 SHIFT-JIS和KSC等多种内码,可以用于 WINDOWS NT和WINDOWS 98/2000/XP,适合全球各个地区使用。TH-OCR还具有自学习功能,不论什么生僻字,都可以通过键盘输入进行学习,大大拓宽了OCR系统的识别字符集。

5. 历次国内鉴定均被中国科学院院土和中国工程院院土等专家组成的鉴定委员会评定为“具有世界领先水平”。
下载好用就说发个言。有问题也在这发个言


这个版本是我亲自制作并经过测试,应该比以前所有的破解版均好。

原版下载地址在下面的链接

http://ftp.lnnu.edu.cn/soft/01_P ... %EA%C8%AB%B0%E6.rar

相当好用的一个款软件,但是它识别时,图版必须得是TIF格式。
你得把你下载的东东转成TIF才行。
还好 还小 还可以轻易的说爱 然后轻易的放开 只是 就象加速折旧法 慢慢的越来越放不起
回复 支持 反对

使用道具 举报

174

回帖

0

积分

152

资产值

入门会员 Rank: 1

注册时间
2005-8-15
发表于 2007-3-3 16:38:30| 字数 23| - 中国–陕西–西安 电信/西安理工大学 | 显示全部楼层

尚书的不错

去年用国几个月,提高办公效率n倍,被领导赞赏.
IBM T400-A98
BOSE C2
NOKIA 5800 红
AKG K26P
回复 支持 反对

使用道具 举报

lljgd - 平常心是道-lljgd

1万

回帖

165

积分

4万

资产值

至尊会员II Rank: 4Rank: 4Rank: 4Rank: 4

注册时间
2008-5-2
铜牌荣誉勋章(注册8年以上会员)银牌荣誉勋章(注册10年以上会员)
发表于 2014-5-23 21:00:04| 字数 5| - 中国–广东–广州 电信 | 显示全部楼层
留名,马克
平常心是道。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Powered by Discuz! X3.5 © 2001-2023 Comsenz Inc

GMT+8, 2024-11-1 07:28 , Processed in 0.164475 second(s), 45 queries , Gzip On, OPcache On.

手机版|小黑屋|安卓客户端|iOS客户端|Archiver|备用网址1|备用网址2|联系我们|专门网

返回顶部