Schrodinger的Active Learning Glide軟件對硬件要求
$SCHRODINGER/run -FROM glide active_learning_glide.py -h
驅動程序要求
驅動程序(主作業(yè))必須在作業(yè)的整個持續(xù)時間內運行而不會中斷。這意味著運行它的計算資源不能是現(xiàn)貨或可搶占的云實例。這些節(jié)點可以被搶占(終止),如果發(fā)生這種情況,您的整個作業(yè)將丟失。
該參數(shù)確定驅動程序的運行位置。選擇用于按需(即不可搶占)節(jié)點類型的主機條目。-DRIVERHOST
如果有足夠的許可證和計算資源來同時運行多個 AL-Glide 作業(yè),建議配置驅動程序主機條目,以便它請求整個節(jié)點,以避免多個驅動程序可能使用相同的節(jié)點和暫存文件系統(tǒng),從而使空間需求增加一倍(或更多)。
暫存空間
驅動程序主機上所需的暫存空間量與輸入配體文件的大小有關。具體而言,驅動程序主機必須有足夠的暫存空間來容納下面所述的文件。
示例的暫存要求以紅色提供。所有參數(shù)均符合我們對具有主動學習滑行功能的超大屏幕的建議。
示例篩選參數(shù),基于 10 億個輸入配體
- 10 億個 SMILES 格式的藥物樣配體 (100 GB)
-
主動學習的 3 次迭代 (
-iter 3
) -
50 000個配體的批量訓練大?。?/span>
-train_size 50000
) -
每次迭代后保留的頂級配體數(shù)量為 1 億個 (
-keep 100000000
) -
使用 Glide SP 對前 100 萬個配體進行重新評分 (
-num_rescore_ligands 1000000
) -
以 Maestro 格式為重新評分的配體 (
-write_pose
)
暫存空間細分
- 輸入文件的副本:100 GB
- 將輸入文件拆分為單個子作業(yè)輸入批處理:100 GB
- 包含每個批次前 10% 的預測的 CSV 文件(按不確定性排序)。它們用于為每次訓練迭代選擇輸入配體:30 GB
-
包含所有批次配體ligand_ml預測的 CSV 文件:100 GB×
num_iteration
-
每次訓練迭代的輸出文件,其中包含命令行參數(shù)指定的得分最高的化合物數(shù)量的預測:30 GB
×num_iteration
-keep
-
自選:如果指定,則包含使用 Glide SP 化合物重新評分的頂部姿勢的單個 CSV 文件,指定如下: 200 MB
-num_rescore_ligand
-num_rescore_ligand
-
自選:如果提供,則包含重新評分配體姿勢的 Maestro 文件:2 GB
-write_pose
- 此示例的總空間:622.2 GB(3 次迭代)
內存
對于 Active Learning Glide 的典型運行,建議在驅動程序主機上使用 64 GB 的 RAM。
這是基于上述示例工作流。
子作業(yè)要求
下面列出了內存、磁盤空間和推薦的 Google Cloud Platform (GCP) 實例類型的要求。
所有值均基于上述示例工作流。
機器學習培訓
建議使用 Nvidia T4 GPU。
- 暫存空間:600 GB
- 內存:64 GB(每個 CPU 內核 8 GB)
- 與搶占式節(jié)點兼容:否
- 推薦的 GCP 節(jié)點類型:n1-highmem-8
ML評估
- 暫存空間:100 GB
- 內存:32 GB(每個 CPU 內核 4 GB)
- 與搶占式節(jié)點兼容:是
- 推薦的 GCP 節(jié)點類型:n2-standard-8
Glide
- 暫存空間:100 GB
- 內存 32 GB(每個 CPU 內核 4 GB)
- 與搶占式節(jié)點兼容:是
- 推薦的 GCP 節(jié)點類型:n2-standard-8