您好、欢迎来到现金彩票网!
当前位置:彩之网 > 专家系统工具 >

信息组织考试重点?

发布时间:2019-06-12 09:07 来源:未知 编辑:admin

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  (1)有专门机构或开发商组织开发,配备有专业信息加工、组织人员,信息组织更规范,描述更准确。

  (2)信息资源大多是数字化了的文献信息,其组织和检索有较强的理论和实践基础。

  ⑶在检索之前一般都要选择学科专业,再到数据库系统中要选择不同学科的数据库,故关键词检索效率有很大提高,误检率减少,检准率提高;

  ⑸其它检索途径均可作为提高关键词检索效率的辅助手段和限定条件,尤其是二次检索功能可以大大地缩小范围,提高检准率。

  1. 布尔检索。布尔检索是保证多关键词检索正确操作的基本规则。在简单关键词检索中提到过隔开多个关键词之间的空格可以表达系统默认的逻辑关系。高级关键词检索中,需要用户运用需要用户运用逻辑算符将检索提问转换为相应的逻辑表达式进行检索。

  3. 限定检索。就是对检索范围加以限定,缩小检索范围,减少无用信息的输出,提高简准率。

  5. 结合类目体系检索。有的检索引擎的关键词检索可以与其提供的分类检索系统结合使用。

  6. 相关检索。指搜索引擎在根据输入的关键词进行检索的同时,还会自动将该关键词的同义词和近义词显示给用户。

  概念:禁用词表,是指检索系统中通过罗列非检索用词来排除无检索意义的语词的词表。禁用词表是主题组织法的重要工具之一,它也是自然语言标引和检索的辅助工具,是促进主题语言的自然语言化发展的一项重要技术。

  我们可以把禁用词表的使用划分为两种类型。一种是在主题标引环节使用的禁用词表,一种是在检索环节使用的禁用词表。

  检索禁用词表是在检索阶段实施反控制的词表,主要在自然语言检索系统中使用。禁用词表的使用可以滤除检索策略中存在的无检索意义的字词,保留有实际意义的部分,然后再提交给系统进行检索,得到较好的检索结果。

  ①同义字典中主题词与与非主题词的区分不是那么明显,词间关系的控制没有主题词表那么严格,可以比较随意地进行增加、删除和修改。

  ②除了收录概念词外,同义字典还收录专用名词,如人名、机构名等,收词范围比主题词表广。

  ③除一般同义词外,同义字典所包含的同义词还有学名与俗称、新称与旧称、全称与简称、同一产品的正式命名与绰号和型号、不同地译名等。

  20世纪上半叶,LCSH的影响下,出版了至少几百部标题表,其中《西尔斯标题表》、《工程标题表》、《会计师索引标题表》、《公共事物情报服务公司标题表》等仍在使用。

  1951-1952年陶布和古尔比较系统地提出了“单元词组配索引法”,建立了单元词卡系统。这种方法在美国海军兵器中心、Linde 航空产品实验室、美国专利局和杜邦公司等单位,都曾进行过较长时间的试验和应用。

  1947-1950年期间,美国穆尔斯创造了叙词、叙词法 、情报检索、情报检索系统等专门术语。

  1959年美国杜邦公司编制的叙词表是世界上第一部线年美国武装部队技术情报局《ASTIA叙词表》出版。60年代是叙词表迅速发展的时期,这种势头一直延续到80年代,从而使叙词语言成为情报检索词汇控制的主要方法。

  所谓主题语言,是以自然语言的语词为字符以规范化或未规范化的名词术语为基本词汇,以概念之间的形式逻辑为语法或构词法,用语词字顺排列,主题概念以参照系统显示概念之间关系的一类检索语言。

  所谓检索标识,是以简练的语言形式表示文献信息特征,目的是用以区分和辨识文献内容,作为有序存储和检索文献信息的依据。这种特殊的语言就称为情报检索语言或检索语言。

  引用次序亦称组配次序,是指对复合主题进行标引和检索时,各个主题因素的组合或排列的次序。主题语言的引用次序是指字顺标题中各个主题因素的排列次序,是主题语言重要句法手段之一,它决定主题检索工具中主题款目的排检位置。

  1. 简单轮排 在标引词语中,依次将每一个语词置于入口位置,不保留或不维护标引语句的句法关系,这种形式对文献主题的揭示较浅,适用于建立后组式检索系统。

  2. 词对轮排 是将标引语句中的入口词进行两两组合,构成一对,然后将每个词对进行有序排列,一个作为主题标引,另一个作为副标题,使标识较为专指。

  3. 转动轮排 也称循环轮排,是一种能够保持检索语句原有句法关系的轮排,即当某一具有检索意义的词语轮排至入口位置时,入口词左右两方其他词语仍然保留,以起修饰和限定作用。

  4. 结构轮排 亦称换轨轮排,即是亦种能保留原检索语句中句法结构的轮排,在其编制过程中尤其重视检索语句的句法结构,并根据其结构特性轮排后生成款目,其易读性好,但编制较为复杂。

  在信息存储时,首先需要文献标引人员对各种文献进行主题分析,即把文献中所包含的信息内容分析出来,使之形成若干能代表文献主题的概念,然后用主题语言的语词把分析出来的主题概念标识出来,直接表达文献信息的主题内容。

  用主题语言揭示文献,一般不用来组织文献,只用来组织各种检索工具或建立检索系统。

  主题语言的词汇控制方法与信息检索的效率密切相关。检索效率主要是指检全率与检准率。所谓检全率是指对文献信息用检索语言标引并纳入检索系统之后,在需要时能将其中载有有关信息的文献全部检出比率;所谓检准率是指检出的文献全部与信息需求之比。一般说来,词量控制、词形控制、同义词控制及词间关系控制可以提高检全率;而词义控制、专指度控制和先组度控制则可以提高检准率。

  检全率和检准率之间存在着互相制约的现象,提高检全率会使检准率下降,提高检准率会使检全率下降。

  主题语言的词汇控制的目的是使标引者和检索者对主题事物表达一致,避免相关信息的分散,并通过将纵聚合和横组合关系的词连接起来,促进对某一主题进行全面的检索。

  即在标题下再加标题。多级标题实质上是对主标题的复分,一般用短横“—”符号将主标题再细分下去,成为一组串连的标题,即多级标题。

  倒置标题有两个作用:一是可以使类称词在前,增加族性检索的性能;二是可以使定型词在前,方便检索。(课件上的)

  倒置标题有两个作用:意识将重要的、通用的、定型的词置于标题的最前端;二是尽可能利用字面成族的机会。(书上的)

  是指在主表中没有列出或仅在个别主标题下列出,标引人员可视其需要对特定标题进行形式或内容复分。简言之,自由浮动复分就是内容或形式复分的自由化,可以压缩标题表的篇幅、增加标题表的灵活性。

  早期,标题语言采用4种符号来显示标题词间相关关系,其参照符号及含义列表如下:

  现在,标题语言所采用参照符号与叙词语言的参照符号基本相同。美国《国会图书馆标题表》新款目格式所用参照符号:

  1 检索意义。选择用户或读者可以用来作为标引和检索标识,并能直接表达文献主题的词作为标题词。

  2专指性。标题词必须符合直接地、确切地表达文献所论及或所涉及的主题的要求,不用含义比文献主题概念泛指的主题词进行标引。

  3 通用性和精确性。通用性是指应该选择能够被用户普遍接收的词作为标题词。准确性是指标题的字面形式与其表达的概念应当吻合。

  4唯一性。唯一性是选择标题的主要目的,因为达到唯一性,能保证标题法有较高的检索效率。

  标题表是标题语言的词汇表,是一部标题词典,是对文献进行主题标引和主题检索的依据。标题表的主要作用是:

  ① 对标题(正是标题)或非标题(非正式标题)进行登录,并不断地予以更新和完善;

  ② 按字顺组织标题和非标题,并利用参照系统揭示标题词与非标题词之间的关系;

  ③ 提供主题标引和主题检索的方法指示,为标引人员和用户正确查词和选词提供保证;

  概念组配:是在概念分解的基础上,根据概念的分析和综合原理,用以揭示概念本质的一种组配方式。即将一个专指、复杂的概念按其语义分解为两个或两个以上较为宽泛的概念;标引(检索)时同样按其语义将两个或两个以上的较为泛指的概念组合,表示一个专指、复杂的概念。

  词族索引:又称等级索引或族系索引,是将字顺表中具有等级关系的叙词汇集起来,按照叙词族系关系进行系统显示的索引

  叙词表(Thesaurus):我国称为主题词表。它是将文献、标引人员和用户的自然语言,转换成规范化的系统语言的一种术语控制工具,是概括由自然语言优选出的语义相关、族性相关的学科术语所组成的一种规范化动态词典

  等同率:指叙词表中非正式叙词与正式叙词的比率,实际上是入口词多少的测试度

  1 加强族性检索 。 可以将具有同一词素的叙词汇集在一起,利用汉字构词特点和双向排序法的技术,显示相关叙词之间的等级关系,将安字顺显示分散的具有族性关系的词组叙词集中,使其具有族性检索的功能。

  2 增加检索途径。 由于采用轮排,使构词词组叙词的每个词素(单一词)都可以作为排检点,这样用户可以从不同角度查得所需叙词。

  3 提高查词速度。 由于轮排索引款目只保留了用代参照,省略了其他参照及注释内容,充当了一种提供多个检索入口,按词素排列的字顺索引,从而可以帮助用户判断词表中有无所需的词组叙词,提高查词速度

  2 标引时,可通过组配来保证标识来表达主题概念的专指度。一般说来,只有词表收入足够的基本词汇,就可以应用相应的叙词,充分揭示复杂的主题概念,达到很高的专指度和标引深度

  3 能提供多途径检索 参加组配的叙词,只有具有独立检索意义,都能作为检索入口,满足多途径检索的需求

  4 有助于自由扩大或缩小检索范围。由于是用多个叙词来标识一篇文献,检索时就可以根据需要,随时增加或减少作为检索标识的叙词,扩大或缩小检索范围,直到满足检索要求为止

  5 能比较及时地反映新事物、新学科。由于可以使用组配方法表达新出现的主题,因而一些新的事物、新的学科就可以利用基本词汇的组配予以及时地反映

  (叙词表的宏观结构是指叙词表的整体结构,一般包括字顺显示和系统显示两个部分。)

  含义:叙词表(Thesaurus)我国称为主题词表,是将文献、标引人员和用户的自然语言,转换成规范化的系统语言的一种术语控制工具,是概括由自然语言优选出的语义相关、族性相关的学科术语所组成的一种规范化动态词典。

  ①叙词表是一种按特殊方式组织、显示的叙词词典,对众多的叙词起登录的作用。

  ④叙词表,尤其是电子叙词表,以其精巧的结构、优异的性能为叙词语言的使用和管理提供极大的方便

  检索语言的兼容:是指一种检索语言对信息主题概念的标识可直接适用于,或通过转换适用于另一种或多种检索语言。

  叙词表式索引:20世纪70年代初,比利时学者阿德内纳斯和洛勒菲弗雷用UDC的经济学大类编成了世界上第一部叙词表式索引。这种叙词表式索引与分类表相配合,就构成了一种新颖的分类主题一体化词表。这种叙词表式索引的特点是把分类表的字顺索引款目改造为叙词款目。一般分类表的索引款目仅由类名和相应的类号组成,没有其他成分。经过改造的叙词表式索引是在索引款目中增加类名的用、代、属、分、参等项参照及各自相应的分类号,以加强词间关系(即主题概念之间的关系)的显示。通过对分类表类目进行严格的词汇控制以及对分类表索引的改造,实现了由一般分类表向一体化词表的过渡。

  分类主题词表:即分类表——叙词表双向对照索引,如《中国分类主题词表》。这种双向对照索引是分类检索语言和主题检索语言兼容互换的工具,由分类号与主题词对应表、主题词与分类号对应表两部分组成,其形式与标题表的主题标准档十分相似,通常为每个类目列出其对应的一个或多个主题词或主题词的组配形式(主题词集),为每个主题词列出其对应的一个或多个分类号。这种双向对照索引入股在其类名(分类号)和主题词下加上原有的注释项和参照项,就构成了分类表和叙词表的有机结合。这样,它不仅可以用来选词和选类,还可以同时用于分类即主题标引和检索,成为真正意义上的一体化词表。

  结构:(1)宏观结构:包括分类表、字顺表、英汉译名对照表。附表包括人物名称,机构名称,英汉对照索引,轮排索引。

  分类表 全表共分为17个学科大类,27个专业类目,基本上包容了我国社会科学传统学科及新兴学科。分类表采用传统分类法和分面分类法相结合的半分面分类法。在一级类目中采用传统体系分类法设类,列出社会科学传统科学、专业和惯用类,在基本类下,组成分面类表,将学科分为:历史面、学派面、方法论面、学科面、理论面、结构面、管理面、时间面、空间面等9个方面,其中时间、空间为通用面。

  分类表中,每个类名都叙词化,即对分类表中的每一个类名实行严格的词形、词义控制和词间关系控制,要求一个类名代表一个主题概念,一个主题概念只用一个类名表示。通过软件控制,一次检索即可自动生成两种检索标识,并收到两种语言兼容互换的效果。该表分类表类目的标记符号由汉语拼音和阿拉伯数字混合组成,标记方法采用的是层累制。分类表中,三级类以下的同级类目之间,以单行加括号的形式注明组面划分标准。

  字顺表 《社会科学检索词表》的字顺表共收词23000条,其中正式叙词18874条目,非正式叙词4126条目。

  分类表 其款目结构由类目标记符号、级点、分面标头、类名、类目参照(含注释)组成。

  字顺表 包含了有关叙词的所有信息,它仍然按传统叙词表的格式进行单级显示。

  ⑴在分类表部分加强了词间关系的联系。⑵分类表的注释内容比传统分类表的注释内容更加条理化、具体化。⑶字顺表将叙词概念通过一定的符号联结成语义关系网,清晰地显示了词间关系。⑷为解决分类表中的部分先组词与叙词表中后组词兼容的困难,在分类表和字顺表中用组代形式列出,同时设置了逆向参照。

  ⑸通过统一的词汇控制,在分类表与字顺表之间实现了等值兼容,计算机可以在此基础上进行自动生成和转换。

  5.中国分类主题词表的特点:(书上说的是功能,没有写特点,这里就附上功能的内容~)

  ①使分类标引和主题标引可在同时完成,降低标引难度,提高标引质量,节省标引人员的劳动;②在检索中,使分类检索系统和主题检索系统密切联系,实现有效的互补,方便检索,并提高检索效率;③为在图书馆现有分类目录的基础上补编主题目录或分类目录字顺主题索引提供捷径;④在条件不足时,它可直接作为分类目录或主题目录的辅助工具(充当其索引),省去其中一种目录的编制;⑤当建立各学科或专业检索语言的兼容互换工具,包括建立各学科的分类主题词表或集成词表奠定了基础;⑥为术语学研究和术语库的建立提供参考工具。

  (1)受控语言,是指人们根据检索的需要,依据一定的规则对自然语言进行事先规范而形成的语言,如分类语言和主题语言。 自然语言是区别于受控语言的一个概念,一般来说,是指人们日常说话、写文章和思想所用的各种语言。

  (2)自然语言有很大的发展前景,它突破了传统受控语言的某些局限,在网络环境下发挥出了良好的性能:1.自然语言符合客观需要,可以不受限制地随时输入新词,因而可以跟踪科发展,加速机检数据库的建设;2.易用性好,检索方便、简单,只要不脱离信息中原有的主要自然语言语词,便可任意检索,既不受词表控制,也不需要培训,用户掌握较快;3.标引简便快速,易于实现自动化;4.标引一致性好,一般在较小范围内采用“现成词”;5.专指度高,可以具体到文摘,索引或文献正文中出现的任何一个有实际意义的语词,还可以指定检索用词的出现位置等。

  分类语言的优点:能够将同一学科性质的文献信息集中,以满足人们从学科门类对事物对象与问题进行“族性检索”的需要,便于检全某一学科或专业的文献信息,具有较强的系统性;分类语言的缺点:将同一主题的文献信息分散在各个学科中,检索专深课题的直接性较差,标识不直观,不易为用户掌握;

  主题语言的优点:能够将同一主题的文献加以集中,适应人们对事物对象与问题进行“特性检索”的需要,检索专深课题的直接性较强,标识直观;

  主题语言的缺点:不能很好地体现知识内容之间的学科性质区分割学科之间的连续,将同一学科性质的文献分散于各个主题之间;

  自然语言的优点:自然语言标识更加专指,更加符号用户的语言习惯,特别适合检索专深课题和最新出现的概念词汇,检索直接性更强;

  自然语言的缺点:由于不加规范,不能显示语词之间的关系,难以进行族性检索,特性检索的检索效率也不高;

  1. 分类标引:一般而言,以分类法为工具,赋予文献码号标识的过程,称为分类标引。

  3. 隐性主题:指在文章中没有显现出来,而是隐含在不同的字面形式中,需要通过深入分析才能揭示的主题。

  4. 整体标引:亦称浅标引,是指针对文献的整体主题或整体事物进行的概括性标引,一般不揭示文献的从属主题、局部主题。

  5. 全面标引:亦称深标引,是把文献中全部价值、符合检索系统要求的主题内容都都予以揭示的标引方式。

  6. 主题概念转换:用标引语言(标题表、叙词表)的标识(标题词、叙词)表达主题的过程称为主题概念转换。

  7. 多主题:指一篇文献同时研究两个或两个以上的事物或问题,即研究多个主题。多主题包括同时论述多个独立的问题。

  8. 自由词标引:称为非控标引,是指直接使用未经规范化处理的自然语言词汇,作为描述和表达文献内容主题的一种标引。

  (1) 交叉关系概念分解法,是将一个复杂概念分解成若干个具有交叉关系的概念成分,这些概念成分的外延有部分重合的关系。

  (2) 种属关系概念成分分解法,是当用交叉关系概念分解法无法表达复杂主题概念时,而采用的一种方法。

  凡有明确出版计划,内容上有密切联系,一次性刊行的从书,可在采用整体标引的同时,采用分析表因的方式。

  对于单学科性、专业性较强的从书,或内容广泛,没有明确的出版计划,且单书之间缺少联系的丛书,可采用分散标引,即直接按单书标引。

  (2) 多卷书 在以全书主题做整体标引的同时,还应以各分卷为单位进行分析标引。

  (3) 文集 主要采取整体标引,必要时,对个别单篇进行分析标引,以提高标引深度。

  1、自然语言:所谓自然语言是指文献作者或文摘、题要的作者原来所使用的语言,其中包括有:关键词、自由词和出现在文献题名、摘要或正文中的语词。

  2、关键词:所谓关键词,是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对表征文献主题 内容具有实质意义的语词,亦即对揭示和描述文献主题内容来说是重要的、带关键性的(可以作为检索用语的)那些语词。

  3、后控词表:也称为词间关系词表,它是利用受控语言的基本原理和方法编制的自然语言检索用词表。

  (2)标引控制+检索不控制 只在标引阶段使用词表,检索阶段直接使用自然语言检索;

  (3)标引不控制+检索控制 用自然语言标引,但通过控制词表检索,具体检索用词即可以是自然语言,也可以是词表中的词;

  (4)标引不控制+检索不控制 标引和检索时都使用自然语言,不使用任何词表。

  这四种方式中,第一、二种方式为先控系统模式,第四种为纯自然语言检索模式,而所谓后控制检索就是上面所提到的第三种模式。

  5、自动赋词标引:是指由计算机根据自然语言语词与检索词的对应表,自动完成将计算机自动抽取的关键词转换成检索词,并建立倒排索引文档的过程。

  6、自动抽词标引:是指用计算机自动抽取文本资源中表达文献主题的语词作为检索标识。

  (1)、机械分词法。机械分词法主要有最大匹配法、逆向最大匹配法、逐词匹配法、部件词典法、词频统计法、设立标志法等。

  (2)、语义分词法。语义分词法是在汉语分词中引入了语义分析,对自然语言自身的语言信息进行更多的处理。

  (3)、人工智能分词法。人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式:其一,基于心理学的符号处理方法;其二,基于生理学的模拟方法。从这两种思路出发,产生的汉语分词方法对应有专家系统分词法和神经网络分此法。

  9、后控制技术:后控制技术是指检索系统在标引阶段使用自然语言,不对标引进行严格控制,而在检索阶段才对检索词进行控制的一种自然语言检索优化技术。

  分类语言 优点:能够将同一学科性质的文献信息集中,以满足人们从学科门类对事物对象与问题进行“族性检索”的需要,便于检全某一学科或专业的文献信息,具有较强的系统性;缺点:将同一主题的文献信息分散在各个学科中,检索专深课题的直接性较差,标识不直观,不易为用户掌握;

  主题语言 优点:能够将同一主题的文献加以集中,适应人们对事物对象与问题进行“特性检索”的需要,检索专深课题的直接性较强,标识直观;缺点:不能很好地体现知识内容之间的学科性质区分割学科之间的连续,将同一学科性质的文献分散于各个主题之间;

  自然语言 优点:自然语言标识更加专指,更加符号用户的语言习惯,特别适合检索专深课题和最新出现的概念词汇,检索直接性更强;缺点:由于不加规范,不能显示语词之间的关系,难以进行族性检索,特性检索的检索效率也不高;

http://letamydoit.com/zhuanjiaxitonggongju/55.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有