iOS自带超强中文分词器说明实现
2023-03-15 23:22:37 时间
说明
在处理文本的时候,第一步往往是将字符串进行分词,得到一个个关键词。苹果从很早就开始支持中文分词了,而且我们几乎人人每天都会用到,回想一下,在使用手机时,长按一段文字,往往会选中按住位置的一个词语,这里就是一个分词的绝佳用例,而iOS自带的分词效果非常棒,大家可以自己平常注意观察一下,基本对中文也有很好的效果。而这个功能也开放了API供开发者调用,我试用了一下,很好用!
效果如下:
实现
其实苹果给出了完整的API,想要全面了解的可以直接看文档:CFStringTokenizer Reference
这里说说简单的一个实现:
// 要分词的字符串
NSString *string = @"侠士隐锋,莽夫露刃";
self.keywords = [[NSMutableArray alloc] init];
CFStringTokenizerRef ref = CFStringTokenizerCreate(NULL, (__bridge CFStringRef)string, CFRangeMake(0, string.length), kCFStringTokenizerUnitWord, NULL);// 创建分词器
CFRange range;// 当前分词的位置
// 获取第一个分词的范围
CFStringTokenizerAdvanceToNextToken(ref);
range = CFStringTokenizerGetCurrentTokenRange(ref);
// 循环遍历获取所有分词并记录到数组中
NSString *keyWord;
while (range.length>0) {
keyWord = [string substringWithRange:NSMakeRange(range.location, range.length)];
[self.keywords addObject:keyWord];
CFStringTokenizerAdvanceToNextToken(ref);
range = CFStringTokenizerGetCurrentTokenRange(ref);
}
其实逻辑很简单:创建分词器-->一个个地一次获取分词后的每个词的起始位置和长度,从而取出词。
示例里我用列表显示每个分词,比较清楚,列表的实现就不说明了,可以直接看工程代码。
值得一提的是,其分词速度很快,甚至一些网络词汇比如“木有”,一些成语等等都能够识别出,能看出这是分词的什么吗:
相关文章
- 我与分布式机器学习的故事
- 大数据热中的冷思考
- Hadoop大数据系统的七大危险信号
- 帮助企业开始采用大数据的7大工具
- 群蚁算法理论与实践全攻略
- 大数据项目实践:基于hadoop+spark+mongodb+mysql+c#开发医院临床知识库系统
- 从数据来源、数据生态、数据技术、数加平台等方面,漫谈阿里大数据
- 从Google的PaaS平台说起,解析中美Docker生态圈
- 人人都需要知道 关于大数据最常见的10个问题
- 数据湖的四个最佳实践
- 新型数据准备工具来袭 你还在使用传统数据仓库架构吗?
- Spark入门:实现WordCount的3种方式
- 数据挖掘的入门概念
- 网络爬虫基本原理(二)
- 2016年上半年最酷的十家大数据初创公司
- 你一定要了解的大数据与小趋势
- 盘点最受欢迎的十个开源大数据技术
- 大数据VS大拥堵:大数据治理交通
- 公有云大数据收入至2026年将占大数据市场的24%
- 大数据产业迎来修正期 数据分析市场今年增速达14%