SemDB - 教程

辅助工具：数据标注

SemDB 系统中的数据标注辅助功能可以用于帮助用户更加便利地完成数据标注的任务。本教程介绍如何使用该功能进行数据标注。

在这一教程中，我们接续《数据操作基础教程（一）》，从一个已经完成数据导入的快照开始操作，如下所示。

我们首先建立一个空的表格用于存储将要创建的数据标注，如下所示。

切换到幕景编辑页面，创建新的场景表格，填写名称并选择相应的模板。

选择数据列并标注为数值类型，完成后点击右上侧的存盘按钮进行保存。

接下来，我们创建一个模型，使用A、B、C三列作为输入属性。因为该模型仅用于提供给数据标注工具，因此其模型类型并不重要。因此，这里我们不妨将模型设置为空模型。

为场景表格设置数据源，然后切换到部署栏，验证完成后点击右上侧的存盘按钮，然后为我们的幕景起个名字。

完成幕景的创建后，点击左侧导航栏的第五个按钮进入幕景监控页面。

切换到扩展组件栏，点击数据标注辅助。

选择模型，然后点击选择二分类。

然后即可看到如下的数据标注界面。

针对随机出现的数据点，可以手动选择数据点所对应的标注信息。

右侧会实时显示当前已标注的数据点统计信息，以及一个简单的参考模型的当前准确率。

在过程中，随时可以点击链接按钮，将已经标注过的信息存储到表格中。

此外，在数据标注的过程，当前所标注的数据点会被存放在名为 "label_eng" 的数据缓存中，可以在 Python 语言中通过调用 read_buffer 函数读取该数据点的信息，用以展示相关辅助信息。这对于标注图像或者时序序列等复杂数据点时会有较大帮助。具体细节可以参见《编程语言支持：Python》