Fasttext langue_identification for each 原始文本返回多个预测,并且也无法指示哪些属于哪个原始文档.
每个原始文档的预测数量也不同--他们的GitHub论坛现已关闭,但有人知道如何将输出与原始文本进行匹配吗?
代码 :
DF = data.frame(doc_id = seq(1, 5),
speechtext = c("Hello. Fake text entry 1.", "Fake text entry 2", "more text", "Text in a
different language", "Hola"))
library(fastText)
# download .ftz pretrained model from https://fasttext.cc/docs/en/language-identification.html
file_ftz = system.file("language_identification/lid.176.ftz", package = "fastText")
lang1 = language_identification(DF$speechtext,
pre_trained_language_model_path = file_ftz,
verbose = T)
我预计每条原始文本有一个预测,或者至少有一个一致的数字,或者以某种方式标记预测与哪些文档一致.
事实上,我可以根据每个系列输出的几个元素的最大数量来猜测,但这似乎并不是最佳的--它确实看起来像一个错误.
(我try 添加intern = T作为每R - fasttext how to load output into a dataframe from command line个参数--这不被视为参数).