当执行这个代码时,我得到11937,但我不应该得到10.000吗? 如果我不应该,我有几个后续问题:
- num_words有什么意义?
- 我得到的11937号代表什么?
- 我如何限制我的词汇量?
MAX_WORDS_COUNT = 10000
WIN_SIZE = 1000
WIN_HOP = 100
tokenizer = Tokenizer(num_words=MAX_WORDS_COUNT, filters='!"#$%&()*+,-–—./…:;<=>?@[\\]^_`{|}~«»\t\n\xa0\ufeff',
lower=True, split=' ', oov_token='unkown_word', char_level=False, )
tokenizer.fit_on_texts(x_data)
items = list(tokenizer.word_index.items())
print(len(items))
我期望输出10.000,因为我相信num_words限制了词汇表的大小.
如果需要的话,我可以从我的colab笔记本中提供完整的代码.