[lucene] 怎么提取短语的名词
lzj0470
2010-04-27
哪位了解过,提供一点思路,谢谢
|
|
wgdwyh
2010-04-28
lzj0470 写道 哪位了解过,提供一点思路,谢谢
这个感觉,你要建立自己的字典,和自己的基于字典的分词系统来实现. |
|
lzj0470
2010-04-28
这个字典太大了。
|
|
wgdwyh
2010-04-29
1. 去网上找一些字典,然后过滤掉非名词的.当然人工过滤是非常繁琐的, 你可以写程序过滤掉一些. 然后再人工过滤一下.
2. 你提出的问题如果不基于字典分词,基本上是无法实现的.从短语中抽取名词, 是让计算机模拟人的思维, 没有字典做辅助, 不可能实现抽取. |
|
lzj0470
2010-04-29
好的。我现在是借助中科院的词性分析,然后用我1500万数据进行分析。
|
|
phyeas
2010-04-30
Google 命名实体识别
|
|
phyeas
2010-04-30
貌似通过统计的方法是最靠谱的,如果仅仅依靠字典分词那所有的准确度都建立在字典的覆盖范围上,而名词又是汉语中增长最快的一个词类…所以有必要依赖统计模型。
PS:中科院的分词器是基于多层次隐马尔科夫模型的,效果比纯字典分词好,但是语料库好像很老了。 |
|
lzj0470
2010-04-30
这两天都在研究中科院的分词器。看源代码很吃力。
|
|
lzj0470
2010-04-30
phyeas 写道 Google 命名实体识别
是什么意思 |
|
phyeas
2010-04-30
我是说让你用Google搜搜"命名实体识别"
|