Python 如何获取TFIDF Transformer中的值

发布于04月11日

我是Python的新手，最近学习使用Bag of Words和TFIDF进行文本处理.

我试图使用以下代码获取TFIDF中第1001列中的单词:

count_vectorizer = CountVectorizer()
bag_of_words = count_vectorizer.fit_transform(df)

TFIDF_transformer = TfidfTransformer(norm = 'l2')
TFIDF_representation = TFIDF_transformer.fit_transform(bag_of_words)

TFIDF_transformer.get_feature_names_out()[1000]

输出是"x1000"，一个记号(我假设)而不是单词.

如何在TFIDF中获取第1001列中的确切单词？我是否使用了错误的函数或错过了其他步骤来解释我获得的 token ？

推荐答案

计数向量器返回一个没有列名的稀疏矩阵，您需要将其转换为锯齿形框架，然后通过从CountVectorizer中拉出这些单词来添加它们作为列名:

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

count_vectorizer = CountVectorizer()
bag_of_words = count_vectorizer.fit_transform(df)

### Turn sparse array into dense pandas dataframe and add column names (words/tokens)
bag_of_words = pd.DataFrame(bag_of_words.toarray(), columns=count_vectorizer.get_feature_names_out())

TFIDF_transformer = TfidfTransformer(norm = 'l2')
TFIDF_representation = TFIDF_transformer.fit_transform(bag_of_words)

或者，我会提出，如果您刚刚完成TF-IDF向量化，那么直接使用TF-IDF向量器可能会更简单，而不是使用TfidfTransformer:

from sklearn.feature_extraction.text import TfidfVectorizer

TFIDF = TfidfVectorizer()
TFIDF_representation = TFIDF.fit_transform(df)

TFIDF_transformer.get_feature_names_out()