1.f. 建模集存储库
考虑到上述架构,我们可以轻松地将所有培训数据存储到区块链对等数据库中。 对于音频训练数据,我们可以存储原始的未压缩或无损压缩的wav文件和相应的标准答案。
1.g. 预测数据存储
对于AI dApps生成的所有生产数据,它也可以通过我们现有的gStorage管道。 并允许用户安全地检索以及发送文件。
1.h. 模型中心
对于流行的深度学习框架(如Tensor-flow,Keras,Pytorch,Kaldi,Caffee,CNTK等)生成的模型,我们也可以使用上述方法从区块链数据库中安全地存储和获取它们。
2. gCrawl: 分布式高性能算法自动生成的训练数据解决方案
我们展示了一种名为“gCrawl”的全新机器学习架构,用于在监督分类任务中使用未标记的信息。 我们不假设未标记的数据采用与标记数据类似的类名或生成描述。 因此,我们可能想要利用从因特网任意下载的大量未标记图片(或声音示例或内容记录)来增强对给定图片(或声音或内容)任务的执行。 我们描述了一种gCrawl的方法,该方法使用简化的解码路径和传递学习来从未标记的数据迭代模型。
下面是gCrawl计算集群的体系结构,它是水平可扩展的。 在实践中,我们有能力处理 上千万个爬虫任务!