序論:自動運転システムにおけるデータ駆動評価の重要性
高度なADASが運転の多くを担い、完全自動運転車がセーフティドライバーなしで公道を走るようになるにつれ(例:Waymoのロボタクシー、Auroraの自動運転トラック etc)、問われるのは「作れるか?」ではなく「信頼できるか?」です。AIの飛躍的進歩によりADS開発は加速しましたが、そのブラックボックス性により、人間が解釈可能な形での性能・安全性評価の必要性がこれまで以上に高まっています。
シミュレーションや走行ログから得られる膨大なデータを前に、安全性を確保するには高度に自動化され、スケーラブルな評価パイプラインが不可欠です。さらに、フリートオペレーターや物流企業が自動運転システム活用によるビジネス最適化を検討する中、彼らは透明性のあるメトリクスとKPIを強く求めています。WaymoのSafety Impactダッシュボードや「Determining Absence of Unreasonable Risk: Approval Guidelines for an Automated Driving System Deployment」といった発表は、スケーラブルでデータ駆動かつ透明性のある安全性・性能評価がADSプロジェクトの成否を分ける鍵であることを示しています。
ADS評価における主要な問題(テストプラットフォーム横断)
評価パイプラインは従来からADS開発を支えてきましたが、自社開発の「内製」ソリューションはSAE L3やL4といった高レベル自動化に対応する際に限界に直面します。主な問題は次の通りです:
- テストデータの量と多様性
SIL/HIL/VILシミュレーション、テストコース、公道走行ログなど、多様なプラットフォームから得られる膨大なデータを集約・評価・分析し、安全性と性能のメトリクスやKPIと照合する必要があります。しかしデータ形式は多岐にわたり、統一的処理は困難です。 - エンジニアリング効率とスケーラビリティ
数百万マイル分の走行ログから興味深いシナリオやイベントを抽出・整理し、問題をトリアージし、シナリオの発生確率や重大度を分析するには膨大な工数が必要です。さらに実走ログとシミュレーションなど、異なるプラットフォームを使用するチーム間では評価メトリクスやKPIを共有できず、再利用性が低下し、作業の重複や解釈の不一致が生じます。 - 必要な評価コンテンツの開発
ADSの評価器(Evaluator:KPI、チェック、カバレッジメトリクス)を再利用可能かつ拡張可能な形で作成するには大きな工数がかかります。また、十分に抽象度の高い形式で定義されなければ、人間がその意図を解釈することが困難になります。
ODD内でのテスト完了度の測定
ODD(運行設計領域)の要求事項やリスクに基づいたカバレッジメトリクスが欠如しているため、すべてのプラットフォーム横断でテスト結果を集約・評価・報告し、テストが「十分に完了した」と判断する基準を設けるのは困難です。
新しいアプローチの可能性 ― Foretify Evaluate
Foretellixはこれらの問題を、プラットフォーム非依存で自動化され、スケーラブルかつ説明可能な評価フレームワーク「Foretify Evaluate」で解決します。これは技術チームとマネジメント双方に実用的なインサイトを提供します。
Foretify Evaluateが際立つ理由
自動運転技術の世界では、走行1マイルごとに新しい学びとリスクが伴います。Foretify Evaluateはそれらを抽出するために設計されています。
- 実走行ログからのシナリオ抽出
AIとルールベース自動化を組み合わせ、膨大な実走行ログからシナリオを抽出・タグ付・評価します。これにより性能や安全性メトリクスを重要なシナリオの文脈で分析でき、テストに単なる理論モデルではなく現実の複雑性を反映します。 - 豊富な評価ライブラリ
「Evaluation V-Suite」に含まれる拡張し続けるライブラリから、すぐに使える評価ライブラリを活用可能です。幅広いAVの挙動、メトリクス、KPIを評価でき、インサイト取得とデプロイの準備を加速します。 - 現実と仮想を網羅した包括的分析
都市部の公道でもシンセティックシミュレーションでも、Foretify Evaluateは評価結果を構造化された、意味のある分析情報として提供します。同一の分析ツールで詳細なシナリオ分析から集約されたメトリクスダッシュボードに至るまで、実世界データとシミュレーションデータの両方に使用できます。これにより見落とされがちな性能・安全性のギャップ、および重要な問題を可視化します。 - 統一されたODDカバレッジメトリクス
OpenSCENARIO DSLカバレッジメトリクスを活用し、ターゲットODDにおけるテスト進捗度を客観的に確認できます。実車走行・シミュレーション双方のテスト結果を横断的に集約し追跡可能です。 - 重要箇所への集中
高度な検索とトリアージ機能により、最もリスクの高い状況やクリティカルな問題に優先付を行い、エンジニアリングリソースを最も効果のある部分に集中可能です。
Foretify Evaluateで安全性や性能のギャップ、ODDテストカバレッジの不足を明らかにした後、Foretify Generateを用いてターゲットシナリオを自動生成し、検証を閉ループ化し、インサイトからアクションへと移行することができます。これらすべてが、一つのプラットフォーム上で完結します。
今後のブログシリーズ予定
このシリーズでは、Foretify Evaluateソリューションの各側面を掘り下げ、スケーラブルでデータ駆動かつ透明性のある安全性・性能評価をどのように実現するかを紹介していきます。
参考文献
- AIベースの自動運転システム評価における形式的抽象化の必要性については、Foretellix CTO Yoav Hollanderによる最近のブログ投稿をご覧ください。