本プロジェクトは、Pioneroが大規模データシステム(Big Data)構築において持つ技術力と戦略的なアプローチを体現した取り組みです。 私たちは、日本語に特化した大規模かつ多様なデータセットを生成することを目的に、複雑なWebクローリングシステムを開発しました。 このシステムにより収集されたデータは、日本語および日本文化に対する深い理解を持つ次世代の大規模言語モデル(LLM)のトレーニングに向けた堅牢な基盤となっています。
概要
参照URL
非表示
ジャンル
大規模データ収集(Large-Scale Data Crawling)、AI / 機械学習システム、ビッグデータ基盤、バックエンド開発
クライアント
非表示
開発期間、規模
6ヶ月、24人月
開発体制
TL1名、BrSE1名、SE3名
担当範囲
UIデザイン、基本設計、Webアプリ/デスクトップアプリの開発およびテスト
技術スタック
React.js
FastAPI
Python
Selenium
AWSなど
備考
大規模データ収集基盤
大規模データ収集基盤