资源简介 (共17张PPT)文 本 处 理 技 术第二部分素材获取处理篇项目二文本是文字、字母、数字和各种功能符号的集合。在计算机技术、通信技术和网络技术高速发展的现代化社会,虽然图形、图像、音频和视频等已经成为普遍的信息传播方式,但文本作为传统的信息载体,在多媒体应用中依旧有着不可动摇的重要地位。本项目将介绍获取和处理文本的方法。项目二 文本处理技术2任务一 获取文本文本在多媒体技术应用中起着举足轻重的作用,本任务将介绍计算机中文本文件的常见格式,以及输入文本的主要方式。3项目二 文本处理技术一、文本文件的常见格式是纯文本文件格式,可使用Windows系统的“记事本”程序进行编辑和存储。纯文本文件除了换行和回车外,不包括文字的任何格式信息,如字体、大小、颜色、位置等。纯文本文件的通用性很强,在大多数文字处理软件和多媒体开发软件中均可直接使用该类文件。TXT格式:4项目二 文本处理技术任务一 获取文本文本文件格式是指在计算机中存储文本的方式。下面介绍常见的文本文件格式。5项目二 文本处理技术任务一 获取文本提 示利用纯文本文件不包含任何格式信息的特点,可以方便地用它清除文本的格式信息。例如,如果将网页上的文本直接复制到Word等文字处理软件中,往往会带有一些不需要的格式符号,不方便编辑。因此,可首先将这类文本复制到“记事本”等纯文本程序中以转换为纯文本,然后再将纯文本复制到Word中。DOC和DOCX格式:是文字处理软件Microsoft Word默认使用的文件格式。其中,DOC为Word 2003及以前版本使用;DOCX为Word 2007及以后版本使用。这两种格式的文件除可包含文本和各种排版格式外,还可包含图片、形状、表格、图表和超链接等信息。DOC和DOCX是目前最常用的文本文件格式。RTF格式:是Windows的“写字板”程序默认使用的文件格式,在该格式的文档中可以包含文本、图片和超链接等信息。RTF格式的文件被许多文字处理软件和多媒体开发软件支持,如Word和Authorware等。6项目二 文本处理技术任务一 获取文本WPS格式:是金山WPS文字处理软件默认使用的文件格式。HTML格式:HTML是超文本标记语言的简称,这是一种网页文档格式,其最大的特点是使用各种标记来表示文档的结构和组成元素。7项目二 文本处理技术任务一 获取文本PDF格式:这是由Adobe公司开发的一种电子文档格式。由于PDF格式的文件可以不依赖操作系统的语言和字体就能正常显示,因此它成为在Internet上发布电子文档的理想格式。目前,越来越多的电子图书、产品说明等使用PDF格式。8项目二 文本处理技术任务一 获取文本提 示各种格式的文本文件可通过一定的方法相互转换。例如,要将DOCX格式的文件转换成RTF格式,可先使用Word打开该文件,然后执行“另存为”命令,在打开的“另存为”对话框的“保存类型”下拉列表中选择“RTF格式”,然后单击“保存”按钮。二、输入文本的主要方式将文字输入计算机的方式主要有键盘输入、手写输入、语音输入和扫描识别输入。9项目二 文本处理技术任务一 获取文本键盘输入1键盘输入是传统的,也是主要的文字输入手段。计算机的通用键盘源自传统的打字机,本身是为英文字母的键入而设计的,因此,如果要输入英文字母和符号,直接敲击相应的按键即可。但如果要输入汉字,则需要通过输入编码(汉字输入法)进行输入。汉字的三个要素是形、音、义,因此,汉字的输入编码也主要分为形码(如五笔字型输入法)和音码(如微软拼音输入法、搜狗拼音输入法)两大类。汉字输入法种类繁多,并且新的输入法还在不断涌现,功能也在不断增强。例如,搜狗拼音输入法除可以通过全拼、简拼方式输入汉字外,还可以结合汉字的词义与语义特性,进行词汇与整句等智能化的输入。利用键盘输入文字的优点是方便快捷,易修改且不需要附加录入设备;缺点是需要逐字敲入,因此输入速度较难提高,对于新手来说有一定的操作难度。10项目二 文本处理技术任务一 获取文本手写输入法是一种用特制的感应书写笔,在与计算机接口相连的手写板(参见图2-1)上书写文字来完成文字输入的方法。手写输入法符合人们用笔写字的习惯,只要将手写板接入计算机,在手写板上按平常的习惯写字,计算机就能将其识别出来,显示在文字录入窗口中。手写识别输入的优点是不用专门学习训练,即写即得;缺点是潦草的字迹会影响识别率,导致输入结果不是很准确。手写输入2图2-1 手写板11项目二 文本处理技术任务一 获取文本语音输入3语音输入是将声音通过话筒输入计算机后直接转换成文字的一种输入方法。利用语音识别技术,计算机能迅速、自然地把读入计算机的声音信息转换成计算机中的文本。语音输入在硬件方面要求计算机必须配备能正常录音的声卡和录音设备(如麦克风),在软件方面需要安装语音识别软件。目前,常用的语音输入软件有搜狗拼音输入法(带语音输入功能)、百度语音输入、讯飞语音输入等。语音输入方法的优点是可以快捷、自然地完成文本的录入,减轻用户使用键盘输入的疲劳;缺点是错字率仍然比较高,特别是一些专业名词及生僻字。12项目二 文本处理技术任务一 获取文本在实际办公中,当需要将印刷品中的大量文字输入计算机时,如果仍用手工录入,无疑会浪费时间,而利用OCR识别输入可以大大加快文字录入速度,提高工作效率。OCR是光学字符识别技术的英文缩写,即首先利用扫描仪或数码相机等,将印刷品以图像的方式输入到计算机中,然后用OCR识别软件将图像中的文字识别出来,并转换为文本格式的文件。原稿印刷质量越高,字迹越清楚,识别的准确率就越高。OCR识别输入4常用的OCR识别软件有清华紫光TH-OCR、汉王OCR、尚书OCR、捷速OCR等。任务实施一、获取PDF文件中的文本利用Solid Converter PDF软件可轻松将PDF文件转换为Word文档。下面通过一个案例,介绍使用Solid Converter PDF将PDF文件转换为Word文档的方法。13任务一 获取文本项目二 文本处理技术任务实施一、获取PDF文件中的文本14图2-2 Solid Converter PDF工作界面任务一 获取文本项目二 文本处理技术步骤1启动Solid Converter PDF软件,选择“文件”>“开启”菜单,打开本书配套素材“素材与实例”>“项目二”文件夹中的“PDF素材.pdf”文件,如图2-2所示。任务实施一、获取PDF文件中的文本15图2-3 “转换成Word”对话框任务一 获取文本项目二 文本处理技术步骤2单击工作界面上方工具栏中的“转换成Word”按钮 ,然后在打开的“转换成Word”对话框中根据需要进行设置,单击“确定”按钮,如图2-3所示。步骤3此时会出现“转换进度”提示框,等待一段时间后“PDF素材.pdf”文件所在文件夹中便会出现“PDF素材.docx”文档,并且该文档默认处于打开状态。任务实施二、获取网页中的文本16图2-4 框选网页文本任务一 获取文本项目二 文本处理技术步骤1打开要获取文本的网页,在要获取的文本上按住鼠标左键不放并拖动,松开鼠标后即可选中文本,如图2-4所示,此时按快捷键【Ctrl+C】将所选文本复制到剪贴板中。在实际工作中,经常需要使用网页中的文本。下面通过一个案例,介绍获取网页中文本的方法。任务实施一、获取PDF文件中的文本17图2-5 “将网页文本转换为纯文本任务一 获取文本项目二 文本处理技术步骤2启动Windows自带的“记事本”程序,按快捷键【Ctrl+V】将复制的文本粘贴到“记事本”程序中,如图2-5所示。此时,网页文本中的链接和格式都将被删除,变为纯文本。步骤3获取网页文本后,可将记事本文件(txt)保存,或直接将记事本中的文本复制到Word或其他文本处理软件中应用。 展开更多...... 收起↑ 资源预览