我正在分析数据和训练模型,稍后将用于日期预测应用程序.我的服务器上目前有大约700万行数据(表大小=6,400,000行x 8列). 我想知道对于这个行数是否有推荐的n_stimators值.我需要在准确的数据和应用程序的速度之间的平衡比例.

`Python 定义序列随机森林(数据): try : #将数据拆分为要素和目标 X=data.drop(Columns=[‘ident’])#功能 Y=data[‘ident’]#目标

    # Split data into train and test sets
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Initialize Random Forest model
    model = RandomForestClassifier(n_estimators=100, random_state=42)
    
    # Train the model
    model.fit(X_train, y_train)
    
    # Evaluate the model
    accuracy = model.score(X_test, y_test)
    print(f"Model accuracy: {accuracy}")
    
    return model
except Exception as e:
    print("Error training Random Forest model:", e)
    return None`

我try 了从1到1500的不同值,但没有找到最好的值.

推荐答案

我不知道n_估计器的任何客观最佳 Select ,但您可以try 绘制精度与n_估计器的关系图以及计算时间与n_估计器的关系图,以找到合适的值(有点类似于this post)

Python相关问答推荐

从webhook中的短代码(而不是电话号码)接收Twilio消息

如何删除索引过go 的lexsort深度可能会影响性能?' &>

对于一个给定的数字,找出一个整数的最小和最大可能的和

将图像拖到另一个图像

Python解析整数格式说明符的规则?

为什么NumPy的向量化计算在将向量存储为类属性时较慢?'

改进大型数据集的框架性能

删除marplotlib条形图上的底边

python中的解释会在后台调用函数吗?

在两极中过滤

Python—为什么我的代码返回一个TypeError

Discord.py -

BeautifulSoup-Screper有时运行得很好,很健壮--但有时它失败了::可能这里需要一些更多的异常处理?

计算机找不到已安装的库'

简单 torch 模型测试:ModuleNotFoundError:没有名为';Ultralytics.yolo';

如何设置nan值为numpy数组多条件

使用pythonminidom过滤XML文件

使用Scikit的ValueError-了解

try 在单个WITH_COLUMNS_SEQ操作中链接表达式时,使用Polars数据帧时出现ComputeError

如何计算Pandas 中具有特定条件的行之间的天差