汉语文本指难针产品介绍与使用说明

金 檀1     李百川2     林星彤1     郭 凯3

1中山大学;2有米科技;3东北大学)

工具地址:http://languagedata.net/editor/

该工具为中山大学青年教师培育项目(批准号:16wkpy09)阶段成果。

汉语

“汉语文本指难针”采用数据挖掘技术,以“汉语教材语料库”中的课文语料为数据基础,提供汉语文本的难度评估与改编反馈:

  1. 文本定级:参考《国际汉语教学通用课程大纲》,基于字词、句长与篇章等核心特征的量化计算,对文本进行难度定级;
  2. 词汇反馈:采用“哈工大-讯飞语言云”技术进行自动分词,并根据《汉语国际教育用音节汉字词汇等级划分》对词汇进行分级标注;
  3. 例句查询:根据词汇分级标注生成词表,并基于“汉语教材语料库”提供目标词语查询,进而提供典型教材例句。

“汉语文本指难针”可为汉语教学素材选取与改编提供量化反馈,并为汉语教材相关研究提供实证数据。

 

一、功能介绍

“汉语文本指难针”是面向汉语作为第二语言教学的文本难度评估工具。它是基于大规模“国际汉语教材语料库”,运用大数据智能技术,所开发的一款在线工具。

在为汉语文本进行难度评估时,它主要可提供文本定级、词汇反馈和例句查询三大功能。图1

在文本定级功能中,我们参考了《国际汉语教学通用课程大纲》中的定级标准,把所有课文分为了三等六级,并经过语料筛选、难度定级、特征提取、模型建立以及效果检验等步骤,从而实现文本定级的功能。其中所运用到的核心算法是机器学习中重要的支持向量机算法。经过检验,该算法的分级准确率已超过90%。

在词汇反馈功能中,我们采用了《汉语国际教育用音节汉字词汇等级划分》标准,对文本的不同等级词汇进行标注。这一标准是依据大规模动态语料库所研制的,语料规模高达30多亿字次。在使用时,可通过这些词级的不同标注来了解文本词语难度的分布情况。

在例句查询功能中,我们依据了“全球汉语教材库”中的15000多册教材信息数据。我们精选了“全球汉语教材库”中最具代表性的教材数据,在其基础上搭建了一套完整的检索系统,实现了通过词语查询例句的功能支持。

二、操作指引

下面,大家看到的就是文本指难针的操作界面。

pic 1

首先,我们可在文本框中输入需要被分析的文本内容,接着,输入相应的验证码后,工具就开始自动分析了。

现在,我们来看看分析的结果如何。

pic 2

pic 3

首先,它会给出文本的难度值,我们称其为难度LD值。这是一个范围在1.0到4.0的实数值,数值越高,表示所输入的文本难度越大。同时,结果中也会给出相应的难度等级,下面的指引图展示了LD值和难度等级之间的对应关系。输出难度分析结果之后,我们还可以通过点击页面上的“文本改编”按钮,来对原文进行改编。

点击“文本改编”后,我们可以看到这样的页面。

pic 4

通过勾选想要标记的不同难度级别的词语,并点击“显示标注”按钮,页面下方就会出现用不同颜色标注过词语的原文。我们可以根据这些信息在下面的文本框中改编文本来调整文本的难度。除此之外,我们还可生成相应的词表。

我们可以根据需要在此添加或删除生词,并搜索相应的例句,这对于编写教材的老师们来说,是一项很实用的功能。图5

图7

三、应用场景

大家都知道,在学习语言的过程中,我们所阅读的文本应该要由浅入深。因此,在编写教材的时候,要挑选一些难度适当的文本,这样,才能达到最高的学习效率。如果每一篇文本都可以对应一个难度值和难度等级,那么,在选择的时候,就可以有一个直观的参考。所以,文本定级功能对老师们选择适当文本编写教材来说是很有帮助的。

通过文本定级功能,老师们可以解决过去选材太过主观的问题。在改编文本时,词汇反馈功能可为老师们提供有效的参考,不会让字词的调整过于随意。在教授生词时,例句查询功能可为老师们提供相应的例句,帮助学生们的理解,从而解决老师们编写例句困难的问题。  图6

欢迎大家登录网址(http://languagedata.net/editor/),试用汉语文本指难针工具。在使用的同时,也欢迎大家向邮箱来信(dearmrk@163.com),提出您宝贵的意见和建议,我们将根据您的反馈及时对工具进行完善。希望“汉语文本指难针”能够为大家的教学和科研工作带来更多便利,成为有价值、受欢迎的工具。