NearMe Tech Blog

数理最適化とAIエージェントでシフト組み業務を自動化&効率化した話

2025-06-30T13:57:34+09:00

はじめに

NearMeエンジニアの柿野上拓真（Takuma Kakinoue）です。私は、数理最適化や機械学習をはじめとする高度なアルゴリズムを含むテクノロジーによって実社会の問題を解決することに高いモチベーションを持っており、NearMeでは主に自動配車システムや相乗りマッチングシステムの開発に携わっております。単に高度なテクノロジーを使ったシステムを作るだけではなく、オペレーションを含め全体の業務を「デザイン」していくことに興味関心があります。

さて、今回のテーマは、直近新たな課題として社内で挙がった「シフト組業務の自動化およびシフトの効率化プロジェクト」です。NearMeは相乗りマッチングや車両割り当ての制御を行うプラットフォームの開発に焦点を当てており、車両やドライバーのマネジメントや実際の運行は他社のハイヤー会社（以下、運行会社と呼ぶ）に委託しています。なのでドライバーのシフト組業務は運行会社側で行っておりましたが、より効率的なシフトを組みたいという要望が運行会社から上がり「シフト組業務の自動化およびシフトの効率化プロジェクト」を実施するに至りました。

本記事では、シフト最適化システムの要件やその要件をどのように数理最適化のフレームワークに落とし込んだのか、また、AIエージェントを使ったインタラクティブにシフト組みを行うシステムに関して述べていきます。

ヒアリング結果＆要件定義

ある運行会社にヒアリングした結果、シフトの効率面の観点で以下の改善点があることがわかりました。

・配車依頼件数の増減に応じて出勤するドライバーの人数を最適化したい

・ドライバーの勤務時間帯を均し、使う車両台数をなるべく減らしたい

また、手動でシフト組を行っている際に考慮している制約としては以下の点が挙がりました。

制約はハード制約（必ず守らなければならない制約）とソフト制約（なるべく守りたい制約）に分類して考えることにしました。

・法令で定められた勤務間隔（ハード制約）

・ドライバーの休暇希望（ソフト制約）

・各ドライバーの出勤日数が月の最小出勤日数〜最大出勤日数の範囲に収まること（ハード制約）

・車両をいくつか予備として残しておきたいので、1日に出勤するドライバーの人数に上限を設けること（ハード制約）

・月ごとにシフト組を行うが、対象月の前月の最終週のシフトもちゃんと考慮すること（ハード制約）

また現状の運用方法としては以下のようでした。

・ドライバーの休暇希望日や希望出勤日数はcsvなどで管理している

・手動でシフト組を行い、各ドライバーに出勤日を伝える

・ドライバーからシフトの変更要望があれば再度シフトを微調整する

シフト最適化システムの設計

私は、上記のヒアリング結果をもとにシステムの設計を行いました。先ずは、設定値をYAMLファイルから読み込んでシフト最適化結果を画面に表示するというプリミティブなCUIアプリケーションにしようと考えました。以下は大まかなシステム設計の内容です。

入力

YAMLファイルで以下の設定値を指定

全体向けの設定

法令で定められた勤務間隔
曜日ごとに必要なドライバー数を指定
目的関数の各項の重み（w1, w2, w3）

各ドライバーの設定

最小勤務日数
最大勤務日数
休暇希望日
前月の最終週の出勤状況

など

出力

画面に下図のように結果を出力

左側にドライバーの名前を表示（今回は名字の最初の１文字のみ写しています）
各日のシフトを色で分類して表示（緑：出勤、オレンジ：希望休、白：希望休以外での休み）

最適化における目的関数

w1 * [希望出勤数との絶対誤差] + w2 * [休暇希望だが出勤になったシフト数] + w3 * [車両を効率的に使えているかどうか]

最適化のフレームワーク

上記の目的関数および各種制約関数の元で充足可能性問題（SAT問題）ソルバーで求解

上記をPythonで実装し、M1 Macで10秒ほど計算を回し解を求めてみました。

実装の雰囲気を理解していただくため、以下に簡易版のコードを載せています。

（１）従業員・日数などの情報を準備

employees = [
    Employee("Alice", 5, 10),
    Employee("Bob", 3, 8),
]
settings = Setting(target_workers_per_day=[2,2,2,2,2,2,2], max_workers_per_day=3)

・各従業員に、週に何日シフトに入るかの最小・最大回数を設定。・各日ごとの希望人数（target）と上限人数（max）を設定。

（２）シフトに入るかどうかの変数を作る

work[e_idx, d_idx] = self.model.NewBoolVar(...)

・work[e, d] は、従業員 e が日 d にシフトに入るかどうかのブール変数（0 or 1）。

（３）従業員ごとのシフト回数の制約を追加

emp.min_shifts <= sum(work[e_idx, d]) <= emp.max_shifts

・各従業員が週の中で希望の回数だけシフトに入るよう制約。

（４）各日の人数が目標からずれた分をペナルティにする

dev = self.model.NewIntVar(...)
self.model.AddAbsEquality(dev, actual - target)

・各日の実際の人数と希望人数の差（絶対値）を dev に入れ、最小化対象に。

（５）各日で上限人数を超えた分もペナルティにする

ex = self.model.NewIntVar(...)
self.model.Add(ex >= actual - max)

・上限を超えた人数分 ex を計算し、これもペナルティ。

（６）目的関数（ペナルティ合計）を最小化

self.model.Minimize(sum(deviations) + sum(excesses))

・「人数のずれ」や「上限超過」をなるべく減らすように最適化。

（７）ソルバーで実行して解を求める

from ortools.sat.python import cp_model

solver = cp_model.CpSolver()
solver.Solve(self.model)

・OR-Tools の CP-SAT ソルバーを使って解決。

結果比較

まず、シフト最適化システムが出したシフト組が各種制約を守っているかは運行会社のシフト組担当者と私とでダブルチェックをして確認しました。その上で、手動でシフト組した結果とシステムでシフト組した結果に対して、各曜日のドライバー出勤数がいかに需要にフィットしているかを比較しました。

水曜と木曜が注文数が少なく、土曜が注文数が多い傾向がデータ分析により確認できたので以下のドライバー数を目標出勤数としました。

・水曜：5人

・木曜：4人

・土曜：8人

・それ以外：6人

以下は横軸：曜日、縦軸：平均出勤ドライバー数のグラフです。システム（自動）でシフト組した場合、手動の場合と比較して各曜日の理想出勤数（目標値）との差分が小さいことがわかると思います。

AIエージェントを使ってインタラクティブにシフト組みを行うシステム

現在、インタラクティブなシフト組みシステムを開発しています。用途としては、作成したシフトに対して「このドライバーはやはりこの日を休みにしてほしい」などといった追加要望が来た場合に、柔軟にシフトに反映していくためです。エンジニアが対応しても良いのですが、工数削減のためにAIエージェントを活用することにしました。

設計としては、最適化計算はOR-Toolsに任せ、各種制約など最適化計算への入力情報を書くYAMLファイルをAIエージェントによって生成しています。

プロンプトとして、各設定値がどういう意味を持つかを与えています。YAMLのような構造化されたデータはAIエージェントと相性が良いと考え、このような設計にしました。

また、初めはボタンなどを使ったGUIを考えていたのですが、以下の理由によりAIエージェントをインターフェースとして採用しました。

・柔軟性の高い返答が可能になる

・既成のモデルを使うことで素早く開発ができる（UIのウィジェットはほぼテキストボックスのみで良い）

・会話形式なので使い方を覚えるまでもなく直感的に使える

以下は、概念実証のためにインターン生が作ってくれたUIおよびプロンプトです。

実際に、「佐藤ドライバーは木曜休みでお願い」と打つと、それ通りにYAMLの設定を上書きし、再度最適化プログラムを走らせて結果を表示してくれます。Webアプリとして実装しており、フレームワークはStreamlitを用いています。

以下のコードはAIエージェントにリクエストを投げる部分の実装を要約したものです。

（１）プロンプトの作成

※プロンプトの内容はかなり省略して載せています。

def build_system_prompt(year, month):
    return f"""
あなたは、{year}年{month}月の従業員のシフト希望を記述した日本語の自然文から、YAML更新用の差分JSONを生成するAIです。

# 🛠 更新内容の記法
以下の例のように対象の従業員名と更新内容をJSON形式で出力して

# 🧾 入力例
「田中の水曜日をすべて希望休にして(2025年の7月の例)」

# 📤 出力例
{{
  "diff_type": "update",
  "name": "田中",
  "updates": {{
    "preferred_days_off": {{
      "add": [2, 9, 16, 23, 30]  // 例: 2025年7月の水曜日
    }}
  }}
}}

""".strip()

・最適化の各設定を記述するYAMLをどのように更新するかを出力してもらうように指示しています

（２）Azure OpenAIクライアントの初期化

client = AzureOpenAI(
     api_key=os.getenv("AI_AGENT_AZURE_OPEN_AI_API_KEY"),
     api_version=os.getenv("AI_AGENT_AZURE_OPEN_AI_API_VERSION"),
     azure_endpoint=os.getenv("AI_AGENT_AZURE_OPEN_AI_ENDPOINT", ""),
)

・環境変数からキーやエンドポイントなどを読み込みます

（３）チャットAIへの入力メッセージを構築

messages=[
       {"role": "system", "content": build_system_prompt(year, month)},
       {"role": "user", "content": chat_input},
]

・メッセージは、「（１）で作成したプロンプト "system"」と「ユーザが入力した文章 "user"」の2つから構成されています。

（４）Azure OpenAIクライアントにリクエストを送信

response = client.chat.completions.create(
      model=os.getenv("AI_AGENT_AZURE_OPEN_AI_DEPLOYMENT_NAME"),
      messages=messages,
      temperature=0.0,
      max_tokens=1000,
      top_p=1.0,
      frequency_penalty=0.0,
      presence_penalty=0.0,
      stop=None,
 )
 return json.loads(response.choices[0].message.content.strip())

・AIエージェントにプロンプト+チャットの内容を送ります。

・チャットで送られた要望を満たすために、最適化計算への入力が書かれたYAMLのどの値を変更するかがAIエージェントから返ってくるので、それに基づいてYAMLを上書きします。

今後の展望

シフト最適化システムは日単位での最適化を前提に開発してきましたが、更なる発展として、時間単位で最適化するシステムも開発中です。

また、AIエージェントを使ったシステムは以下のような展望を考えています。

・要望に対して複数の設定値パターンを考え、複数のシフト組結果を提案する機能の開発

・数理最適化の観点で曖昧な指示をしたとしても、意図を汲み取りなるべく要望に沿うアウトプットを出せるようにする機能の開発

・日単位ではなく時間単位で最適化する高速なアルゴリズムの開発

・どの制約に一番多く引っかかっているか（解が弾かれているか）を判定し、設定値のチューニングを補助する機能

・従業員の名前の判定精度の向上（"希望休暇さん"などといった名前とは無関係の単語を名前と認識してしまうことがある）

おわりに

本記事では、「シフト組み業務の自動化およびシフトの効率化プロジェクト」について述べてきました。

DXにおいて、エンジニアがDX対象の業務について理解するだけではなく、業務を行っている人がソフトウェアについて理解があるとより一層システム構築が円滑に進むと考えています。NearMeのオペレーションチームには、エンジニア経験のある方やシステム開発の理解が深い方が在籍しているので、「要件のヒアリング→要件定義→システム設計→実装→検証」というシステム開発の一連のプロセスを私がスムーズに執り行えたのは、オペレーションチームの方々のサポートあってのことであると実感しています。

技術を研究段階で留めるのではなく、実業務に対して適用することに興味関心があるエンジニアにとってNearMeは最高の環境だと思います！

最後になりますが、NearMeではエンジニアを募集しています！ご興味のある方はぜひ以下をご覧ください。

採用サイト

Author: Takuma Kakinoue

巨大近傍探索による継続的な最適化

2024-12-27T11:33:23+09:00

はじめに

NearMeの相乗りサービスの特徴として、事前予約の注文が入るたびに相乗りの最適化を行っているという点があげられます。これは、特定の時間で締め切りして一気に相乗りを決めるという素朴な方法に比べると、相乗り状況が事前に把握できることで配車手配しやすくなったり、直前まで最適化できたりするといったメリットがあります（参考１、参考２）。

一方で、最適化の観点では、注文のたびに最適化しようとすると計算リソースが限られてしまうので、妥協した解に留まる可能性あります。特に、現実装では計算量を減らすため、入ってきた注文に対して時間的・空間的に近しい注文同士で再計算していますが、その場合、部分部分、瞬間瞬間で最適化できても、刻々と注文が入ってくる中で、その部分的な解が"陳腐化"していきます。

全体の注文数が限られている状況ではそれでも満足な解は得られていたのですが、注文数が増えるにつれて、こう組み合わせるともっといいのではというパタンが少しずつ現れてきます。

そこで、陳腐化していく解に対して、巨大近傍探索(Large Neighborhood Search / LNS)(参考文献：Pisinger 2010)と呼ばれる手法を用いて解を再構築するようにしました。名前は難しそうですが、手法自体は比較的単純です。社内ではその動作イメージから通称、ガラポン(ガラガラポン)と呼んでいます(笑)。

この再構築の処理を定期的に実行することで、よりよい解が得られるようになります。ここでは、巨大近傍探索について説明すると共に、相乗りサービスへの適用および、そのシステム概要について述べていきます。

巨大近傍探索について

※このセクションは、ほとんどChatGPTによる説明です。

巨大近傍探索は、最適化問題を解くためのヒューリスティック手法の一つです。特に、組合せ最適化問題（例: 車両ルーティング問題やスケジューリング問題）において、解を効率的に改善するために使用されます。

巨大近傍探索の基本的なアイデアは以下の通りです：

基本的な流れ

初期解の構築: 問題の解をまず1つ生成します。これは何らかの簡易的なヒューリスティック手法（例: グリーディアルゴリズム）を使用することが一般的です。
部分解の破壊 (Destroy): 解の一部を「壊す」操作を行い、一部の構成要素（ルート、スケジュールなど）を取り除きます。
修復 (Repair): 壊した部分を再構築して、新しい解を生成します。この修復ステップでは、元の制約を満たすように工夫されます。
評価と更新: 新しい解を元の解と比較し、採用するかどうかを決定します。通常、メタヒューリスティック（例: 焼きなまし法や禁忌探索）のルールを用います。
繰り返し: これを繰り返すことで、解を徐々に改善します。

特徴

局所探索を拡張した手法で、探索空間の「大きな」部分を再評価することから名前が付けられています。局所最適解からの脱出が可能で、より良いグローバル解を見つける可能性を高めます。壊す・修復するステップで柔軟性が高いため、さまざまな問題に適用可能です。

メリット

計算コストを抑えながら、質の良い解を探索可能。メタヒューリスティック手法（例: 焼きなまし法）と組み合わせることで、より高い性能を発揮。

デメリット

破壊・修復の設計が問題依存であり、適切に設計しないと効果が出ない。最適性保証はない（近似解しか得られない場合が多い）。

巨大近傍探索は特に複雑な制約のある問題や大規模な問題で有用で、柔軟性の高さと効果的な探索性能が評価されています。

※ 経路最適化問題でよく用いられる2-opt近傍操作も解の一部を壊して再構築するという点ではアイデアを共有しています。2-optは単純で固定的な破壊/修復手法を用いた、狭い探索空間での解法。特に巡回順序最適化に特化しています。一方で、巨大近傍探索は柔軟で大規模な破壊/修復手法を用いて、広い探索空間で解を改善します。多様な問題に適応でき、局所最適から脱出する能力が高いです。巨大近傍探索は2-opt を含むより一般的なフレームワークと考えることもできます。

相乗りサービスへの適用

さて、巨大近傍探索を我々の相乗りサービスに適用するのは比較的簡単です。なぜなら既に、注文が入った時、また、注文を取り除くとき(キャンセルされたとき)に、時間的・空間的に近しい注文同士で再計算して部分的な解を生成する実装は済んでいるからです。そうなると、注文をいくつか取り除いて、その後、それらを再度入力していけばいいだけです。そして、各試行において、再構築された解が元の解よりも評価関数として上回れば解を上書きするというロジックを加えれば基本的には完成です。

※ 制約条件のせいで与えられた車両で解が得られなかったら、車両を増やすというアプローチで必ず制約条件を満たす部分的な解を得ています。

以下は、その方法により再構築された部分的な解の例です。

ここで、左の黒い３つのルートは元の解で、右の赤い２つのルートが再構築された解です。それぞれのルートはいくつかの経由地を経て、目的地の空港に着きます。左右とも経由地は同じですが、ルートの数が再構築によって減っているのが分かります。また、元の解の２つの近いルート同士の経由地の再配置だと、このような再構築は起こらず、全部の経由地の再配置によってこのような再構築が起こることも見てとれます。

なお実際には、どの注文同士が再配置できるかも時間と共に変わっていきます。例えば、ある運行会社が受注した注文した時は、その注文はその運行会社内で注文した同士でのみ再配置可能とするなど。そのようなダイナミックな運用上の制約も考慮して実装しています。

また、日単位でサービス毎に巨大近傍探索のを適用しているのですが、注文数が少なかったり、前回の適用から時間が経ってなかったり、配車直前で再配置が許されない場合などは適用は不要です。そのような適用条件も考慮して実装しています。

システム概要

全体のシステムは、注文が入るたびに相乗りの最適化するリアルタイムなプロセスと、巨大近傍探索を定期的に行うバッチプロセスから成り立っています。

リアルタイムなプロセスはさらに、純粋に最適化を行うRoutingサービスと、状態を管理して全体のフローをコントロールするRideサービスからなります。

バッチプロセスは、巨大近傍探索を司るLNSジョブと同じくRoutingサービスからなります。何回も再構築を試行するため、Routingサービスはリアルタイムのそれとは別系統で動かしています。解を更新するときは、Rideサービスに、組み合わせの再配置をリクエストします。

Rideサービスにおける組み合わせの再配置では、リクエスト元のJobがバグで変な値を返すことも想定して、幾重にもバリデーションを設けています。データの整合性は保っているか、制約条件を守っているか、基本的な指標で解は改善されてるかなど。こうすることで、今後さらにLNSジョブの改修が進んでも安全に運用できるようになります。

おわりに

巨大近傍探索は、シンプルですが強力で、幅広く複雑な課題にも適用できる汎用性の高い手法です。特に、刻々と環境が変化して、解が陳腐化していく中でも効果的に適用できるので、我々の相乗りサービスの実装と相性がいいです。実際この手法を用いて着実に解が改善されました。今後、機械学習の要素なども取り入れてさらに改善していけると期待しています。

最後になりますが、NearMeではエンジニアを募集しています！まだまだ多くの可能性が潜んでいる領域です。興味を持った方はぜひ以下から応募いただければと思います。

採用情報

Author: Kenji Hosoda

Pulumi at NearMe: Embracing True Infrastructure as Code

2024-11-25T10:49:44+09:00

Introduction

Infrastructure as Code (IaC) has revolutionized how organizations manage their cloud infrastructure, and at NearMe, our journey led us to choose Pulumi as our primary IaC tool. This article explores how Pulumi's unique approach to infrastructure management has transformed our Platform Engineering practices, enhanced developer productivity, and improved our infrastructure reliability. We'll dive into the advantages of using real programming languages for infrastructure definitions and compare Pulumi with other tools like Terraform, AWS CDK. While Pulumi's blend of imperative and declarative programming has empowered us with greater flexibility, we also acknowledge potential drawbacks, such as increased code complexity that can sometimes overwhelm developers due to multiple ways to achieve the same outcome. By sharing our practical experiences and insights, we aim to help those undecided between Pulumi, Terraform and AWS CDK to choose the right IaC framework for their specific needs.

About Pulumi

Infrastructure as Code

Infrastructure management has evolved from manual configuration through click-ops to script-based automation, and finally to declarative Infrastructure as Code. This progression reflects the growing need for:

Reproducibility and consistency across environments
Version control and change tracking
Automated testing and validation
Scalable infrastructure management
Reduced human error through automation

Pulumi's Features

Pulumi offered several compelling advantages that aligned with our needs:

Programming Language Support

Instead of learning a domain-specific language , our developers can use familiar programming languages like TypeScript.

import * as aws from '@pulumi/aws'

const lambdaFunction = new aws.lambda.Function(
  'lambda-function',
  {
    code: new pulumi.asset.FileArchive(lambdaArchive.outputPath),
    sourceCodeHash: lambdaArchive.outputBase64sha256,
    handler: 'function.handler',
    environment: {
      variables: {
        /* ... */
      },
    },
    role: lambdaRole.arn,
    runtime: aws.lambda.Runtime.NodeJS20dX,
    loggingConfig: {
      logFormat: 'Text',
    },
  },
  { parent },
)

Type Safety and IDE Support

Built-in type checking
Inline documentation
Code completion

For instance, when working with Kubernetes Custom Resources like Argo Workflows, we can generate type definitions from their JSON Schema using json-schema-to-typescript from npm.

import * as pulumi from '@pulumi/pulumi'
import { Primitive } from 'zod'
import { IoArgoprojWorkflowV1Alpha11 } from './__generated__/argoWorkflows'

type DeepPulumiInputType<T> = T extends Primitive
  ? pulumi.Input<T>
  : T extends object | any[]
  ? {
      [k in keyof T]: DeepPulumiInputType<T[k]>
    }
  : T

type ArgoWorkFlowsTemplateCrdSpecInput = DeepPulumiInputType<IoArgoprojWorkflowV1Alpha11>

new k8s.apiextensions.CustomResource('argo-workflow', {
  apiVersion: 'argoproj.io/v1alpha1',
  kind: 'WorkflowTemplate',
  spec: {
    entrypoint: 'main',
    /* Type-safe properties */
  } satisfies ArgoWorkFlowsTemplateCrdSpecInput,
})

Testing Capabilities

Pulumi enables writing tests using familiar testing frameworks, allowing us to validate infrastructure configurations before deployment. This is enforced both during the preview and deployment stages, providing immediate feedback and ensuring compliance with organizational policies.

For example, the following code snippet ensures that DynamoDB tables do not have a write capacity greater than or equal to 64:

new policy.PolicyPack('dynamo-db-testing', {
  policies: [
    {
      name: 'Minimum DynamoDB Capacity',
      description: '',
      enforcementLevel: 'mandatory',
      validateStack: async ({ resources }, reportViolation) => {
        const dynamoDbTables = resources
          .filter((r) => r.isType(aws.dynamodb.Table))
          .map((tb) => tb.asType(aws.dynamodb.Table))

        dynamoDbTables.forEach((table) => {
          if ((table?.writeCapacity || 0) >= 64) {
            reportViolation(`Unwanted write capacity ${table?.writeCapacity} for table ${table?.name}`)
          }
        })
      },
    },
  ],
})

Multi-Cloud Support

Pulumi provides robust multi-cloud support, allowing you to define and manage infrastructure across various cloud providers such as AWS, Azure, Google Cloud, and more using the same programming languages and tools. This flexibility enables organizations to adopt a consistent infrastructure-as-code approach in heterogeneous cloud environments, facilitating easier migration and hybrid deployments. In contrast, AWS CDK is tailored specifically for AWS services. While it offers deep integration and rich features within the AWS ecosystem, it lacks native support for other cloud platforms, limiting its applicability in multi-cloud scenarios.

Adopting Existing Resources

Pulumi excels in adopting existing cloud resources into your infrastructure codebase. With a single pulumi import CLI command, you can generate the necessary Pulumi code to manage resources that were created outside of Pulumi, such as those provisioned manually or by other tools. This capability streamlines the process of bringing un-managed resources under version control and consistent management practices. AWS CDK and Terraform, on the other hand, does not provide a built-in command-line tool to automatically generate code from existing resources. While you can reference and manage existing AWS resources in CDK or Terraform, it often requires manual code writing and additional effort to integrate them into your new setup.

Comparisons

vs Terraform

Terraform, a popular IaC tool by HashiCorp, uses the declarative HashiCorp Configuration Language (HCL). In Terraform, you define the desired state of your infrastructure, and Terraform ensures your cloud resources align with that state. Its strength lies in simplicity and a rich provider ecosystem for multi-cloud support. Here's an example of Terraform code for provisioning an AWS EC2 instance:

provider "aws" {
  region = "us-west-2"
}

resource "aws_instance" "example" {
  ami           = "ami-12345678"
  instance_type = "t2.micro"

  tags = {
    Name = "ExampleInstance"
  }
}

This snippet defines an EC2 instance with a specific AMI, instance type, and tags. Terraform’s declarative approach focuses on what the infrastructure should look like rather than how to create it, making it easier for teams to adopt without programming expertise.

Key Differences:

Ease of Use: Terraform’s declarative syntax is easier for non-developers, while Pulumi’s programming language approach is more flexible for developers.
Extensibility: Pulumi enables complex logic with programming constructs, while Terraform requires workarounds for advanced scenarios.
Ecosystem: Terraform has a larger ecosystem and Pulumi is still catching up.

Feature	Pulumi	Terraform
OSS License	Yes, Apache License 2.0	No, Business Source License 1.1
Language	General-purpose programming languages	HCL (Domain-specific)
Testing	Native testing frameworks	Limited testing capabilities
Abstraction	Object-oriented/Functional programming	Module system
Dynamic Provider Support	Yes	No
Learning Curve	Familiar for developers	New DSL to learn
Pricing - 1st paid plan	$0.37/resource/month	$0.1/resource/month
Self host	Available	Available

vs AWS CDK

AWS CDK is purpose-built for AWS and allows developers to define AWS infrastructure using languages like TypeScript, Python, Java, and C#. It provides a high-level abstraction for AWS services, enabling users to define resources with reusable constructs. Here’s an AWS CDK example in TypeScript to create an S3 bucket:

import * as cdk from 'aws-cdk-lib'
import { Bucket } from 'aws-cdk-lib/aws-s3'

const app = new cdk.App()
const stack = new cdk.Stack(app, 'MyStack')

new Bucket(stack, 'MyBucket', {
  versioned: true,
})

This code creates an S3 bucket with versioning enabled using TypeScript. AWS CDK integrates deeply with AWS, offering a rich library of constructs tailored to AWS services. However, its AWS focus limits its ability to manage multi-cloud environments effectively.

Key Differences Between Pulumi and AWS CDK

Multi-Cloud Support: Pulumi offers extensive support for multiple cloud providers, making it an excellent choice for hybrid or multi-cloud strategies. In contrast, AWS CDK focuses more on AWS-specific use cases.
Dual Knowledge Requirement: AWS CDK functions as a source-to-source compiler, translating its high-level code into CloudFormation templates. As a result, users must understand both AWS CDK and CloudFormation to effectively debug and manage their infrastructure, increasing the learning curve.
Dependency Deadlock Issues: Managing dependencies between stacks in AWS CDK can lead to deployment challenges. For example, removing an exported value from a stack that is still referenced by another stack can result in deployment failures. Resolving such issues often requires intricate workarounds, such as introducing temporary fake outputs—an approach that can be tedious and error-prone.

By addressing these differences, Pulumi provides a more flexible, general platform for managing infrastructure across diverse cloud environments, while AWS CDK remains a strong choice for teams focused solely on AWS.

Practice

Canary Deployment Example

In this example, we will explore a canary deployment process that takes advantage of Pulumi's unique strengths. This process consists of four stages: Original, Start Canary, Switch, and Next Stable. The desired state at each stage is determined by a combination of environment variables and outputs from the previous stack. Below, we detail each stage of the process.

Process Overview

Original

In the diagram above, a set of listener rules with priorities that are multiples of 3 route requests to Component 1. The stack's output at this stage includes a list of version 1 commit hashes and identifies the stable component as Component 1.

Start Canary

Configure the Pulumi program with STAGE = 'Start Canary' and version 2 commit hashes. This deploys a new stack for version 2 and sets up listener rules with priorities that are multiples of 2, directing traffic to version 2. These canary rules require special headers, ensuring only specific requests reach the new version. The stack outputs remain unchanged, maintaining stability while preparing for the canary deployment.

Switch

After manual validation, update the listener rules to transition traffic:

Component 1 (the previous stable stack) now uses listener rules with priorities that are multiples of 1 and requires a special header for access.
Component 2 (the previous canary stack) now uses listener rules with priorities that are multiples of 4, routing public requests to it.

This shifts traffic from the stable stack to the canary stack.

Next Stable

Finally, destroy the previously stable stack and revert listener rules to their original configurations. Update the stack outputs with version 2 commit hashes, designating Component 2 as the new stable component.

Look Back

Deterministic Stage Completion: Pulumi's ability to directly manage both Kubernetes and AWS resources ensures that each stage of the deployment process completes reliably and deterministically. Unlike ingress rule annotations—which may experience delays due to operator processing—Pulumi controls the resources directly, guaranteeing that transitions occur exactly as intended. Additionally, errors surface in the code itself rather than in controller logs, making them easier to track and debug.
Risk Mitigation for Premature Exits: If the Next Stable stage exits prematurely, rerunning it is risky because the stack outputs might already indicate that Component 2 is stable, even if it wasn't fully deployed or Component 1 wasn't completely deleted. To mitigate this risk, we make the stack outputs dependent on an HTTP request. By incorporating a health check that confirms the successful deployment and operation of Component 2 before updating the stack outputs, we ensure the system only proceeds when the new component is fully functional. This dependency prevents the stack from prematurely marking Component 2 as stable and avoids potential downtime from failed re-deployments.

const healthChecks = pulumi.all(stackOutputIds).apply(async () =>
  // health checks are performed on non-global dns
  pulumi.runtime.isDryRun() || envs.NM_USE_GLOBAL_DNS === 'true'
    ? []
    : // check the url health and timeout if necessary
      checkBasicWebApp({
        routings: routingOutputs,
        newAppImageTagEnvs,
        headers: {
          ...(NM_TARGET_STAGE === 'start canary' && {
            [toCanaryHeader.name]: toCanaryHeader.value,
          }),
        },
      }),
)

// stack outputs
const stageInfo = healthChecks.apply((checks) =>
  pulumi.all(checks).apply(() => {
    const stable = variantConstruction.find((c) => c.variantName === 'stable')
    const canary = variantConstruction.find((c) => c.variantName === 'canary')
    if (!stable || !canary) throw new Error('Error constructing components.')
    return {
      stable: stable.component,
      canary: canary.component,
      images: stable.imgTags,
    }
  }),
)

While Pulumi offers the flexibility to configure deployments dynamically, it does introduce additional complexity, which may require engineers to invest more time in understanding and maintaining the codebase. At NearMe, we have chosen Pulumi for its powerful capabilities in handling our specific needs, despite the steeper learning curve.

Pulumi Tips

Below are some Pulumi tips we would like to share:

Utilize pulumi.runtime.isDryRun()

During the first deployment, certain resource properties might not be available until the resource is actually created. This is particularly common when dealing with:

Generated resource IDs
Dynamically assigned IPs
Kubernetes assigned node ports

const nodePort = pulumi
  .all([service.spec.ports[0], service.metadata.name, service.metadata.namespace])
  .apply(([p, n, ns]) => {
    // nodePort will be generated by Kubernetes
    if (pulumi.runtime.isDryRun() && !p.nodePort) return '30000'
    const port = p.nodePort
    if (typeof port !== 'number') {
      const msg = `Unable to find node port in service. Make sure the passed service, ${n}.${ns}, is of type NodePort. Port object: ${JSON.stringify(
        p,
      )}`
      pulumi.log.error(msg)
      throw new Error(msg)
    }
    return port.toString()
  })
const targetGroup = new aws.lb.TargetGroup('target-group', {
  port: nodePort.apply((p) => parseInt(p)),
  healthCheck: {
    port: nodePort,
  },
  /* ... */
})

Avoid default provider

Using default providers like AWS environment variables in non-CI environments might cause a lot of problems. For example, Kubernetes resources might be deployed to a local Minikube context accidentally. Passing providers explicitly is recommended as shown below.

const localWorkspace = await LocalWorkspace.createOrSelectStack(
  {
    projectName: 'example',
    stackName: 'local',
    program: async () => {
      /* Kubernetes Provider */
      const provider = new k8s.Provider('provider', {
        context: 'minikube', // or pass config from EKS resource
      })
      new k8s.core.v1.Namespace(
        'example',
        {
          metadata: {
            name: 'example',
          },
        },
        { provider },
      )
    },
  },
  {
    envVars: {
      PULUMI_CONFIG_PASSPHRASE: 'passphrase',
      PULUMI_BACKEND_URL: `file://${homedir()}`,
    },
  },
)
/* Disable default providers */
await localWorkspace.setConfig('pulumi:disable-default-providers', {
  value: JSON.stringify(['*']),
})

await localWorkspace.up({
  onOutput(out) {
    console.log(out)
  },
})

Perspectives

Leveraging Pulumi's ability to manage both cloud infrastructure and Kubernetes resources, we can create an automated system for spinning up isolated ephemeral environments. This enables developers to test their changes in production-like environments before merging their code.

Conclusion

Pulumi has revolutionized infrastructure management at NearMe, empowering our Platform Engineering team to use familiar programming languages, enhance type safety, and implement robust testing practices. While it introduces some complexity, Pulumi excels at addressing highly dynamic requirements in our ever-evolving environment. If you’re interested in solving challenging problems and shaping the future of infrastructure at NearMe, we’re hiring! Check out the link below to join our team.

Recruit Information

Author: Cyan Chen

「シェア乗り時刻表」について

2024-03-22T12:18:00+09:00

はじめに

先日、空港送迎のシェア乗りサービスの空席を埋めるための時刻表機能をリリースしました。構想は昔からあったのですが、ようやく開発を進めて世に出すことができました。ここではその機能概要やシステムについて説明します。

時刻表について

NearMeではユーザー同士がタクシー/シャトルの車両をシェアして乗車するサービスを構築してきました（※同じシェアですが、昨今、ドライバー不足で議論されている"ライドシェア"は一般ドライバーと乗客のマッチングによるもので、それとは異なります）。

特に、空港送迎のような事前に予約するシナリオにおいて運行効率を高める機能を作ってきました。ユーザー同士のマッチングを最適化したり(参考、参考)、車両と運行のマッチングも最適化して密な運行セットを作ったりしました(参考)。

また、既にある運行の空席を埋める施策として、時間をずらしたら乗れるというレコメンド機能も実装しました(下図)。

レコメンド表示の図。上が希望の運行。下がマッチした既存の運行。下は希望とずれる分、安くなっている。

今回はその空席をさらに埋めるためのアプローチとして時刻表機能を開発しました。既にある運行予定をの一覧を表示して、ユーザーは、多少希望の時間・位置がずれたとしても、その中からマッチする運行を選択できるようにしています。

希望の地点を入力してマッチするものに絞り込りこんだり、

時刻表にて地点を入力して運行を絞り込もうとするところ。

運行を選択したら、マッチ可能なエリアが表示されたりします(※エリア内でも、諸々の事情で配車できないことがあります)。

ある運行に対してマッチング可能なエリアを表示。

使い方としては例えば、空港で少し時間をつぶした後、途中の駅までシャトルで移動して、あとはタクシーで移動する、といったことが挙げられます。

また、特に直前に予約する場合は時刻表が効果的です。一般に、直前になるほど車両を一から手配するのは難しくなり、既に運行予定がある車両に追加で乗る方が手配しやすく、コストも安く済むからです。

システムについて

この機能のアナロジーはバスの時刻表からきてますが、それがタクシー/シャトルのような、よりダイナミックなものに対して適用しているところが新しい点です。

時刻表の一覧表示自体は非常に単純です。運行のリストを時間で絞り込んで、位置情報をマスクした上で表示するだけです。

難しいのは、希望の地点を入力した時に、そこでマッチする可能性のある運行のリストに絞り込むところです。また、希望の地点を入力しないで一覧から運行を選択したときに、どこまでのエリアがマッチングできるのかを位置をぼかして表示するところも一工夫必要です。

マッチング可能なエリアは、現実装においては、簡単な数式でポリゴンを算出し、複数経由地があったらポリゴンを合成するなどしています（※概算でエリアを求めているので改善の余地はあります）。

また、位置ぼかしのためh3というライブラリでポリゴンの解像度を落としたりしています。

悩んだのはその結果を、データに保存するか、オンデマンドで計算するかです。データに保存する場合は、検索はしやすくなるものの、状態の整合性を保つための処理が大変です。一方で、オンデマンド処理は、検索の度にシステム負荷が高くなる可能性があります。

今回は結果的にオンデマンド処理にしました。フィルタリングとキャッシュも利用して、処理速度は許容範囲と判断しました。

とはいえ、JavaScriptでアルゴリズムを作ると、運行1件あたり数十〜百ミリ秒くらいかかることが分かりました。検索時に一気に数十件を処理することを考えると、最悪数秒かかることになります。これを既存のNode.js上で動かすとなると（シングルスレッドなこともあり）既存処理への影響が大きいです。

なので、別サービスに切り出してRustで実装することにしました。結果として、Rustで実装することにより10倍くらい速くなることを確認しました（副次的ですが、イメージサイズ、メモリフットプリントもかなり小さく、サービスを増やすハードルは低かったです）。

なお、正式な実装では単体テストも書きつつ、Streamlitを用いてインタラクティブにAPIを検証するツールも作りました(下図)。このツールにより、単体テストでは見つけづらい、いくつかの不具合を発見しています。

今後の展望

今は空港送迎サイトにおける表示だけですが、今後は様々な利用シーンで使えるようにしていきたいと考えています。例えば、登録した地点においてマッチする運行リストを表示できるので、ホテルのカウンターなどにQRを置いて空席を探すといったことをしたいです。また、ユーザー数が比較的少ない地域のシャトルなどでも、マッチングの可能性を高める手段として期待しています。

採用情報

Author: Kenji Hosoda

配車組作業（6時間 / 日）を自動化した話

2023-11-02T09:26:07+09:00

はじめに

NearMeエンジニアの柿野上拓真（Takuma Kakinoue）です。私は今年４月に新卒としてNearMeに入社いたしました。担当領域としては、主にデータサイエンスやMLOps、新規機能のPOCを担当しています。本記事では、私が設計・実装している自動配車システムの概要および今後の展望として深層強化学習の導入について解説します。

NearMeでは事前予約で注文を集めて、時間的・距離的に近い注文同士をAIによって自動的にマッチング（相乗り）させて乗車人数 / 移動距離を最大化しています。マッチングした注文の集合、あるいは、マッチングしなかった単独の注文をトリップと呼んでいます。車両へのアサイン（トリップに対して運行する車両を紐づけること）はトリップ単位で行います。自動配車システムでは、トリップを最適な車両にアサインし、効率的な運行計画を作成することを目標にしています。

本記事では、自動配車システムを理解して頂くためのイントロとして、システムの概要および配車組ロジック、監視手法、そして、深層強化学習の導入計画という順で述べていきます。

自動配車システム構築の背景

従来のオペレーションと課題

配車組とは、トリップを車両にアサインすることを繰り返し、運行計画を作成することを指します。配車組をする際、車両のキャパシティや運行可能時間、既にアサインされている時間的に近いトリップとの移動時間などを考慮する必要があります。従来は、配車組を人手によって行っていました。例えば羽田空港送迎では１日３回（１回当たり約２時間）の配車組を行っていました。人手で配車組を行う際、現在の運行計画および新規トリップを表示する下記の様な画面上で作業します。

従来のオペレーションには以下に挙げる課題が存在します。

人手なので工数がかかる（１日約６時間費やす計算）
担当者の技量によって作成する運行計画の良し悪しに差がある（上手な人はパズルの様にトリップを車両間で組み替えて１日でより多くのトリップを周れる「効率的な運行計画」を作る）

横軸は時間（0時〜23時）を表しており、各行が各車両の１日の運行計画に該当します。未アサイン欄にある赤色のトリップが新規トリップ（処理対象のトリップ）となります。

自動配車による課題解決

上記の課題を解決するために自動配車システムを構築しました。自動配車システムによって、配車組の工数を削減できるだけでなく、人手だと発生していた配車ミスも防ぐことができます。加えて、注文確定までの応答時間を短くすることができるので、結果的にUXの改善も期待できます。

また、「効率的な運行計画」を作成するために、「トリップの乗車人数」や「相乗りしやすさの予測値」などをもとにトリップをスコアリングし、スコアの高い順にアサインするといったルールベースのアルゴリズムも実装しました。現在は、深層強化学習を用いて、より最適な配車組を行うアルゴリズムの導入も進めています。

配車組をシステムで自動化した場合、人手のオペレーションでは発生していた配車組の属人性の高さを排除できる上に、配車組画面のUI設計・構築の工数も削減できます。そして、「効率的な運行計画」を作成することによって収益向上も期待できます。

自動配車システムの概要

自動配車システムの概略図

自動配車システムはKubernetes上にデプロイされています。また、自動配車システムは、現行のNearMeのメインシステムとは独立に開発しています。自動配車システムは以下の一連のバッチ処理を定期的に実行します。

NearMeのデータベースにアクセスして、車両データおよびトリップデータを取得します
取得したデータに対して、次の章で解説する「配車組バリデーション」および「トリップスコアリング」を行い、アサインを実行するトリップIDと車両IDの組を求めます
NearMeの配車情報を管理するAPIにアクセスし、アサイン処理を実行します（APIとのやり取りにはGraphQLを用いています）

配車組バリデーションロジック

現在の自動配車システムでは、入ってきたトリップを車両のキャパシティや運行可能時間、前後のトリップとの間隔を考慮して自動でアサイン可能な車両を割り出し、配車管理APIを叩くことで車両アサインおよび承認処理を実行します。細かい考慮事項を挙げればキリがないですが、例えば以下に示す内容を考慮して配車組バリデーションを行っています。

車両のキャパシティ（乗車定員と荷物積載容量）
車両の運行可能時間
同じ時間帯に既にトリップがアサインされていないか
既にアサインされている前後の運行との移動時間

また、各車両に対してどのサービスに属すトリップをアサインの対象にするかも設定可能です。具体的には、車両IDとサービスIDの紐付けを指定します。

※サービスIDとは、例えば「羽田空港送迎」や「那覇空港送迎」のようなサービス単位で一意のIDのこと

トリップスコアリングロジック

効率の良い運行計画を作成するためにルールベースなトリップのスコアリングも行っています。以下の要素を複合的に考慮した上で、新規トリップをスコアリングし、高いスコアのトリップから順にアサインしています。「相乗りの発生しやすさの予測値」は既にクラウド上のエンドポイントにデプロイされている機械学習の予測モデルから結果を取得しています。

人数
荷物数
前後の運行との間隔（間隔が中途半端に長いとスカスカな運行計画になってしまう）
相乗りの発生しやすさの予測値

自動配車に関するパラメータ

配車組を管理するオペレータは、管理画面のUI上からパラメータを設定・変更することによって自動配車システムの挙動を操作することが可能です。以下に設定可能なパラメータの例を挙げます。サービスによって自動配車システムに求められる要件が異なるので、将来的にはJsonLogicなども取り入れて柔軟なシステムにすることを目標にしています。

自動配車を適用するかしないかのトグル
自動配車を行う間隔（分）
何日後のトリップまで自動配車の対象にするか
自動配車の対象にする車両ID
移動時間に対する補正係数

自動配車システムの監視方法

自動配車システムの監視対象メトリクス

自動配車システムが正常に稼働しているかの指標として、いくつかのメトリクスを定義しています。メトリクスは、日付とサービスID、車両IDの組ごとにラベリングして監視しています。メトリクスの定義に関しては、実際に自動配車システムを使いながら必要な値を洗い出していくアプローチを取っています。以下はメトリクスの例です。

最後に処理を実行した時刻
処理の実行時間
処理中の内部エラーの回数
アサインに成功したトリップ数
アサインを試みたが配車管理APIからエラーが返されたトリップ数
データ自体に問題があり処理できなかったトリップ数

Prometheus + Grafanaによる監視システム

上記のメトリクスを監視するために自動配車システムでは、PrometheusおよびGrafanaという監視プラットフォームを用いています。PrometheusはPull型の監視システムです。Grafanaはメトリクスをグラフなどでビジュアライズするために使っています。余談ですが、PrometheusおよびGrafanaについては社内勉強会でハンズオンを行ったので、その際のスライドも是非ご覧ください。メトリクスは、以下の図の様にグラフ化されます。ダッシュボードを事前に作成しておけば、ブラウザからGrafanaにアクセスすれば直ぐに最新のメトリクスを見ることができます。

今後の展望

深層強化学習の導入

深層強化学習を使って配車組を最適化するロジックを研究中です。深層強化学習は、巡回セールスマン問題（TSP）や配送計画問題（VRP）において、既存のアプローチよりも良い性能を発揮できる可能性があることが示されています（論文１、論文２）。現在、私は問題設定やアルゴリズムを自動配車に応用可能な形へと拡張し、学習実験を行っております。

おわりに

本記事では、自動配車システムと効率的な運行計画作成に向けての機械学習の導入について述べてきました。個人的な感想ですが、自動配車システムの開発を通じてKubernetesやPrometheusなどのクラウドネイティブ時代の礎となる技術についても学べており、日々成長を実感できています！NearMeでは、週１で勉強会（資料）を開催しており、自身が学んだ技術について他のエンジニアに説明したり議論することを通して、互いに切磋琢磨しています！最後になりますが、NearMeではエンジニアを募集しています！ご興味のある方はぜひ以下をご覧ください。

採用サイト

Author: Takuma Kakinoue

ChatGPT + JsonLogicの可能性

2023-04-10T12:07:10+09:00

はじめに

技術ブログのネタとして、JsonLogicを利用した柔軟なシステムカスタマイズについて考えてはいたのですが、もう一捻り欲しいなというところで、最近話題のChatGPTと組み合わせたらどうだろうと思い試してみたところ、思いのほかいい感じの結果が得られたので、タイトルを改めて書いてみました。

JsonLogicについて

JsonLogicは汎用的なルールエンジンで、現在、NearMeのサービスにおいて複雑な料金計算等で利用しています。例えば、ユーザーに提示する料金は、需給のバランスを整えるために、時間帯や配車までの時間等で金額を調整することがあります。また、配車コストを算出するために、タクシー会社と契約する料金表があるのですが、これも、エリアや人数(大人、子供)、荷物の数、時間などの変数が複雑に絡んだものがあります。これらを計算するために、一つはハードコーディングして解決するという手もありますが、更新しにくく、スケールもしにくいです。また、DB上に設定パラメタを持たせて計算するという手もありますが、パラメタ数が多すぎたり、ロジックも拡張性を持たせるのが難しくなったりします。JsonLogicを用いるとそれらをうまく解決できます。

さて、JsonLogicについてChatGPTに聞いてみます。

JsonLogicとは

JsonLogicは、JSON形式で表現されたルールエンジンであり、データを扱うための簡単な文法を提供します。JsonLogicを使用すると、単純な条件分岐や数式計算、データフィルタリングなどのタスクを簡単に実行できます。

JsonLogicは、JavaScriptオブジェクトのような簡単な構造を使用してルールを定義します。ルールは、if/elseステートメントのような基本的な条件分岐、算術演算、文字列操作、配列の操作、そしてネストされたルールの組み合わせをサポートします。

JsonLogicは、特にビジネスルールやデータ処理の自動化などの分野でよく使われます。JsonLogicのシンプルな構文と柔軟性により、データ処理やビジネスロジックの自動化を効率的かつスケーラブルに実行することができます。

うまく簡潔に説明されていますね。補足として、JsonLogicは、ルール内において、変数の代入や、ループ、関数定義、GOTO文を許しておらず、副作用がなく、計算時間も発散しないように作られています。ただし、明示的に宣言すれば、独自に定義した関数を呼び出すことができるので、やりたいことは大体できるようになっています。

実際にどのようなものか例を示したいと思います。

> jsonLogic.apply({ "+" : [1, 1] })
2

ここで、applyの引数の部分は"1 + 1"というルールを表していて、applyによって計算が行われて2を出力しています。

ルールをネストすることも可能です。

> jsonLogic.apply({ "*": [{ "+" : [1, 1] }, 3] })
6

これは、"(1 + 1) * 3"を表しています。

変数は次のようにして定義します。

> jsonLogic.apply({ "+" : [{ "var" : "x" }, { "var" : "y" }] }, { x: 1, y: 2 })
3

ここで、ルールは"x + y"を表していて、xに1、yに2を代入して、3を出力しています。

サポートされている演算子は、四則演算のみならず、If文や比較演算、論理演算、配列操作などがあります(参考)。

さらに、独自に定義した関数も次のようにして利用することができます(参考)。

> jsonLogic.add_operation("sqrt", Math.sqrt);
> jsonLogic.apply({ "sqrt":2 })
1.4142135623730951

ChatGPTでJsonLogicを生成

それではChatGPTがJsonLogicを扱えるか問い合わせてみます。

試行時のChatGPTのバージョンは"ChatGPT Mar 23 Version" (ChatGPT Plus未加入)です。

1+1をJsonLogicで表現してください

以下は1+1をJsonLogicで表現した例です。

{
  "+" : [1, 1]
}

この式は、+演算子を使用して2つの数値1を加算することを意味します。JsonLogicは、JavaScriptの構文に似ていますが、JavaScriptのように括弧を使用する必要がないため、式が簡潔で直感的になります。

おぉ！ちゃんとJsonLogicの式を返してくれました。JsonLogicというネット上で比較的ニッチな文法を理解してるのが驚きです。

ではもっと現実的な課題を提示してみます。

以下をJsonLogicで表現してください。時間に応じて、通常料金3000円、深夜料金4000円を出力します。深夜料金は朝5時までまたは夜22時以降に適用されます。時間はhourの変数を用いてください。

以下は、JsonLogicを使用して時間に応じて通常料金と深夜料金を出力するロジックを表現した例です。

{
  "if": [
    { ">=": [ { "var": "hour" }, 22 ] },
    4000,
    {
      "if": [
        { "<": [ { "var": "hour" }, 5 ] },
        4000,
        3000
      ]
    }
  ]
}

このロジックでは、まず現在の時間(hour)が22時以上であれば、深夜料金(4000円)が適用されます。そうでなければ、時間が5時未満であれば深夜料金(4000円)が適用され、それ以外の場合は通常料金(3000円)が適用されます。

すごいですね。"if"文も"var"の変数も理解していました。しかも、ちゃんと「朝5時まで」を"hourの5以下"ではなく"hourの5未満"として処理してくれました。

ただし実はこの結果を得る前にいくつか試行錯誤はありました。確率的に構文を間違えることもあり、説明を丁寧にしないとその確率が増える感じでした。また、説明の仕方によっては深夜料金を増加分として解釈し3000 + 4000を返すこともありました。

続いて、もう少し出力を改良してみます。

"if"のネストを、"or"演算子を用いて解消してください。

以下は、"if"のネストを"or"演算子を使用して解消した例です。

{
  "if": [
    {
      "or": [
        { ">=": [ { "var": "hour" }, 22 ] },
        { "<": [ { "var": "hour" }, 5 ] }
      ]
    },
    4000,
    3000
  ]
}


このロジックでは、現在の時間が22時以上であるか、5時未満であるかどうかを"or"演算子で判定しています。もし、そのいずれかであれば深夜料金(4000円)が適用され、そうでなければ通常料金(3000円)が適用されます。

望んだ結果が得られました。ネストした"if"の関係性から、"推論"的な感じで、"or"条件に還元することができました。

テストコードも依頼してみます。

JavaScriptでテストコードをテストケースとともに生成してください。JsonLogicの式はテストケースから外出しして共通化してください。

以下は、JavaScriptでJsonLogic式を共通化し、テストコードとテストケースを生成する例です。

const JsonLogic = require('json-logic-js');

// 共通化したJsonLogic式
const pricingRule = {
  "if": [
    {
      "or": [
        { ">=": [ { "var": "hour" }, 22 ] },
        { "<": [ { "var": "hour" }, 5 ] }
      ]
    },
    4000,
    3000
  ]
};

// テストケースを生成する関数
function generateTestCase(hour, expectedPrice) {
  return {
    input: { hour },
    expectedOutput: expectedPrice
  };
}

// テストコードを生成する関数
function generateTestCode(pricingRule) {
  const testCases = [
    generateTestCase(0, 4000),
    generateTestCase(3, 4000),
    generateTestCase(5, 3000),
    generateTestCase(10, 3000),
    generateTestCase(20, 3000),
    generateTestCase(22, 4000),
    generateTestCase(23, 4000),
  ];

  testCases.forEach(({ input, expectedOutput }) => {
    const actualOutput = JsonLogic.apply(pricingRule, input);
    console.log(`Input: ${JSON.stringify(input)}, Expected Output: ${expectedOutput}, Actual Output: ${actualOutput}`);
    console.assert(actualOutput === expectedOutput, `Test Failed: ${JSON.stringify(input)}`);
  });
}

// テストコードを実行する
generateTestCode(pricingRule);

想像以上にいい感じのテストコードが返ってきました。境界値周りも考慮されています。

ChatGPTでJsonLogicを翻訳

今度は、先ほどのJsonLogic式を逆に変換して日本語に直してみます。

次のJsonLogic式を日本語で表現してください。 {"if":[{"or":[{">=":[{"var":"hour"},22]},{"<":[{"var":"hour"},5]}]},4000,3000]} ただし、出力は料金を表しています。

このJsonLogic式は、次のように日本語で表現できます。

「もし現在の時間が22時以上であるか、5時未満である場合は、料金を4000円に設定し、それ以外の場合は料金を3000円に設定する。」

ここで、「var」で参照されている「hour」は、式が実行される瞬間の時間を表す変数として想定されます。また、「4000」と「3000」は、それぞれの場合に適用される料金を表しています。

正しく変換されました。

もっと複雑な例を試してみます。

次のJsonLogic式を日本語で表現してください。{"if":[{"and":[{"in":[{"var":"from_area"},["area1","area2","area3"]]},{"in":[{"var":"to_area"},["itami"]]}]},3500,{"and":[{"in":[{"var":"from_area"},["area1","area2","area3"]]},{"in":[{"var":"to_area"},["kanku"]]}]},4500,{"and":[{"in":[{"var":"from_area"},["area4","area5","area6"]]},{"in":[{"var":"to_area"},["itami"]]}]},4000,{"and":[{"in":[{"var":"from_area"},["area4","area5","area6"]]},{"in":[{"var":"to_area"},["kanku"]]}]},5000,3000]} ただし、出力は料金を表しています。

このJsonLogic式は、次のように日本語で表現できます。

「もし出発地がarea1、area2、またはarea3であり、到着地がitamiである場合は、料金を3500円に設定する。出発地がarea1、area2、またはarea3であり、到着地がkankuである場合は、料金を4500円に設定する。出発地がarea4、area5、またはarea6であり、到着地がitamiである場合は、料金を4000円に設定する。出発地がarea4、area5、またはarea6であり、到着地がkankuである場合は、料金を5000円に設定する。上記の条件がどれにも当てはまらない場合は、料金を3000円に設定する。」

ここで、「var」で参照されている「from_area」と「to_area」は、それぞれ出発地と到着地を表す変数として想定されます。また、各エリアに対する料金は、条件分岐によって異なります。

読みやすくなりました。変換も正しいです。

おわりに

ChatGPTがJsonLogicを正しく理解して扱えてることを示してきました。現状、説明が雑だったり曖昧だったりすると意図した結果が得られないことがありますが、十分活用できるレベルだと思います。今後さらに精度が高くなることも期待できます。

JsonLogicはシステムに高い柔軟性をもたらしますが、それでいて比較的安全でシステム側としては扱いやすいです。難点としては、文法を覚えないといけず、書きづらい読みづらいというところはあったのですが、ChatGPTで翻訳すればそれも解消しそうです。将来的には、例えば、特定の条件の時に何らかのアクションを実行するというタスクを、ChatGPTに音声で指示して実行させたいといった場合、ChatGPTがJsonLogicを介してシステムを制御するということもあり得そうです。

最後になりますが、NearMeではエンジニアを募集しています！ご興味のある方はぜひ以下をご覧ください。

採用情報

Author: Kenji Hosoda

外部向けAPIプラットフォームの設計について

2022-12-30T15:41:40+09:00

はじめに

NearMeでは最近、相乗り配車サービスのための外部向けAPIプラットフォームを構築しました。これにより、他アプリからシームレスに注文したり、Lineミニアプリのような新しいチャネルのUIを独自に構築することを可能にしました。その設計においては様々な考慮が必要でしたので、ここにまとめたいと思います。

提供方法

APIを利用するにはまず、外部連携先の"組織"を作成し、登録した"組織"で「〇〇地域シャトル」「〇〇スクール送迎」などの"サービス"を作成します。これにより、ユーザー管理、車両管理、注文管理などが管理画面から利用できるようになります。マルチテナント方式なので専用の"サービス"が構築されます。

次に、API連携に関する基本情報を格納する"アプリケーション"という項目を作成します。認証情報やWebhookのURLなどもここで設定します。この"アプリケーション"のIDがキーになって、例えば、この注文はこの外部連携から作成されたもの、というのが分かるようになります。

最後にAPIを試用します。 Jupyter Notebook で主要なAPIをすぐに叩けるようにしつつ、 APIを網羅的に整理するために、 PostmanというAPI確認用ツールも利用しています。 Postmanのいいところとして、変数を保存しておいて環境ごとに切り替えられる点、 API実行の前と後にスクリプトを走らせて変数を操作できる点、 API毎にドキュメントを書けたり、レスポンスを保存して表示できる点、一覧性が高く、見やすい点、などが挙げられます。次図は実際のPostmanの使用例です。

認証

リソースにアクセスするための認証は、"組織"に関するものと、各ユーザーに関するものに分かれます。

"組織"に関するものは server_token を利用します。信頼のあるサーバーから、このトークンをリクエストヘッダに付与してリクエストします。

各ユーザーに関するものは、access_token をリクエストヘッダに付与してリクエストします。外部ユーザー連携を行う場合は、 server_token を利用して "アプリケーション"に紐づいた形でNearMeのユーザーを作成した上で、server_token を利用して、そのユーザーのaccess_token を取得します。そうでない場合は、OAuth形式に沿って、client_id と client_secret を利用します。権限タイプに応じた"ユーザーの認証情報"とともに、信頼のあるサーバーを経由して付与されたclient_id と client_secret をログイン用のAPIにリクエスして access_token取得します（参考、※ パスワードタイプはテスト用途でのみ利用しています）。

Webhook

通知の連携や、システム間の状態の連携を行うときにWebhookを利用します。例えば、"運行が完了した"というようなイベントを、 NearMeのシステムから外部のシステムに送信します。プッシュ通知などは外部のユーザーに対してNearMeのシステムから直接送ることはできないので、このWebhookにより、外部のシステムを介して通知を送ったりします。

WebhookのURLや認証情報なども"アプリケーション"に保存します。 Webhookの認証は外部システム依存になるので、ここは柔軟に設定できるようにしています。ただし、デフォルトで、 client_secret をキーにして、SHA256でリクエストボディをハッシュ化した値をシグネチャとして用いて、送信元の検証が行えるようにもしています（参考）。

中継サービス

元々、内部向けAPIは既に用意はされているので、それを権限だけ修正してそのまま公開というのもできなくはないですが、外部向けAPIは安定性や認知性をより重視するので、リクエストを中継するサービスを新たに設けて、その特性の違いを吸収させました。

GraphQLかRestAPIか

特に、内部向けAPIはGraphQLで組んでいたのですが、外部向けAPIはRestAPIで組むようにしました。

GraphQLのいいところは、型に厳密なので間違いに気づきやすく、柔軟性が高いので効率良くデータを取得できるといった点があります。逆に、少しのスキーマ変化でエラーを起こしたり、どんなクエリを作成すればいいか分かりづらかったりします。 GraphQLそのものへのキャッチアップも少し時間がかかります。

一方、RestAPIはその点、少しのスキーマ変化でもレスポンス自体はエラーにならず、どのAPIをどのように叩けばいいのかはより明快です。逆に、スキーマ変化のためにエラーが混入しやすく、不要なデータを取ってきたり、何回もAPIを叩いたりする必要があったりします。

内部で開発する分にはGraphQLの不利点はそこまで問題にならないのですが、外部の人がAPIを利用する際はRestAPIの不利点よりもGraphQLの不利点の方が大きくなるのではと思います。

名前の変換

外部向けAPIはRestAPIで組むとしたことで、中継サーバーにおいてGraphQLからRestAPIへの変換が必要になってくるのですが、名前をリファクタリングできる機会も生まれたので、結果よかったと思います。

外部向けAPIは一度公開したらなかなか変えられないので、なるべく熟考して名前を決めたいところです。内部向けAPIでもそれは要求されますが、やり直しのチャンスはもう少し残っています。割り切る時もあるかもしれませんし、開発が進んでからより良い名前を思いつくこともあります。

例えば、配車のステータスといったフィールドの値は、内部向けAPIでは数値で管理していたのですが、分かりやすい文字列に変換するようにしました。数値だとデータ節約の側面もありますが、名前を深く考えなくていい（コード上で名前は設定しますがこれは後から容易に変更できます）、というのも開発の上で進めやすかったのですが、外部向けには余計な不便をかけてしまいます。

おわりに

NearMeの外部向けAPIプラットフォームにおける、基本的な構築方法から、設計思想に関わる中継サービスについて説明しました。構築にあたっては他サービスの事例を色々と参考にしてきました。この記事もまたその参考の一つになれば幸いです。

最後になりますが、NearMeではエンジニアを募集しています！ご興味のある方はぜひ以下をご覧ください。

採用情報

Author: Kenji Hosoda

ArgoによるCI構築

2022-07-28T13:54:34+09:00

はじめに

今回は、NearMeにおけるCIの仕組みについて説明します。 CIとは、Continuous Integration(継続的インテグレーション)の略で、コード変更の度にビルドとテストを自動で実行するプラクティスを指します(参考)。

NearMeではCIを実現する方法として、Kubernetes(k8s)上に動作するArgoを利用しました。 k8sはコンテナ化されたアプリケーションを管理するためのオープンソースのシステムです。 Argoはk8s上でCIやCD(Continuous delivery)を実現するツール群です。一般に、CI構築では外部サービスを利用することも多いですが、他システムの障害や料金に依存せずCIを管理したかったのと、既にk8sを中心にシステムを構築していたので、多少の煩雑さはありつつも自前で構築しました。

システム構成

CIシステムはイベントの処理を行うArgo Eventsとジョブを実行するArgo Workflowsからなります。全体としては下図のような構成になります。

Argo EventsやArgo Workflowsにはそれぞれ、k8sのカスタムリソースが用意されていて、k8s上でのリソースを容易に構築できるようになっています。ただし、NearMeではマイクロサービスで複数のリポジトリを扱うため、リソース定義を共通化したい部分も多いので、cdk8sを用いてそれらをさらにプログラム的に管理するようにしています。

Argo Events

Argo Eventsは、様々なイベントを汎用的に扱うことを想定して作られています。

NearMeのCIではGithubのwebhookのイベント扱います。これはカスタムリソースのEventSourceで実現できます。以下はその定義の例です。

kind: EventSource
metadata:
  name: github-event-source
spec:
  github:
    rideServicePullRequest:
      events:
        - pull_request
      repositories:
        - names:
            - ride-service
          owner: nearme-jp
      webhook:
        endpoint: /ride-service/pull_request
      ...

このリソースは、ride-serviceというリポジトリのプルリクエストのイベントを/ride-service/pull_requestというエンドポイントで検知します。

ただし、外部からのリクエストを受け付けるために、このエンドポイントのホストはk8sのIngressにおいて定義します。それにより、GithubからのリクエストはIngressを介してEventSourceに送られます。

このエンドポイントのURLを、GithubのリポジトリにおけるSettings > Webhooksにて設定します。このとき、プルリクエストやプッシュといった送信するイベントの種類も指定します。

EventSourceで受信したイベントは、Sensorに伝えられます。Sensorは特定のイベントをサブスクライブして、特定の処理を起動します。この間のやり取りは、EventBusを介して、Pub/Subのメッセージングモデルで行われます。

Sensorは次のようなカスタムリソースで定義します。

kind: Sensor
spec:
  dependencies:
    - eventName: rideServicePullRequest
      eventSourceName: github-event-source
      name: ride-service-merged-dep
      filters:
        name: data-filter
        data:
          - path: body.action
            type: string
            value:
              - closed
          - path: body.pull_request.merged
            type: bool
            value:
              - "true"
          - path: body.pull_request.base.ref
            type: string
            value:
              - main
  triggers:
    - template:
        conditions: ride-service-merged-dep
        k8s:
          resource: workflows
          parameters:
            - dest: spec.arguments.parameters.0.value
              src:
                dataKey: body.repository.name
                dependencyName: ride-service-merged-dep
          source:
            resource:
              kind: Workflow
              arguments:
                  parameters:
                    - name: repository_name
              ...

このリソースは、ride-serviceリポジトリのmainブランチにプルリクエストがマージされたイベントから、後述するWorkflowを起動します。

このとき、Githubのイベントのペイロードにおいてbody.repository.nameのパスに格納されたリポジトリ名をWorkflowに渡します。このような形で、プルリクエストのリポジトリ名やブランチ名、コメントやラベルなどの情報(詳細はこちら)をWorkflowで利用することが可能になります。

なお、ペイロードの中身は、Githubのwebhookの設定画面の"Recent Deliveries"タブで確認することができます。また、ここで"Redeliver"ボタンを押すことで、同じイベントを送信することができるのでデバッグに便利です(ただし、Workflowの一つのイベントに対するジョブは、同じイベントでは再度起動できないようになってるので、デバッグするときはジョブの実行履歴を消す必要があります)。

Argo Workflows

NearMeのCIでは、Argo Eventsで処理されたイベントからArgo Workflowsにおけるジョブのフロー(Workflow)を起動します。

このWorkflowでビルドとテストを行い、問題なければ、ビルドしたイメージをコンテナレジストリにプッシュします。ここではさらに、チャットサービスのSlackに通知したり、タスク管理サービスのAsanaのタスクのステータスを変更したりもしています。

次図は当Workflowの内部処理を示したものです。

Workflow内部ではビルド用のタスクと、そのタスクの終了時にフックされて起動する通知用のタスクを用意しています。

各タスクの処理はk8sのコンテナのコマンドで書きます。コマンドで全処理を書けなくもないですが、それなりの量になったので、シェルスクリプトにファイル化してk8sのConfigMapに保存して実行するようにしています(もっと複雑になれば、その他の言語で書き直すかもしれません)。外部サービスだとこの辺りより簡潔に書ける可能性はありますが、この方式でも少しの努力で同じことはできると考えています。

なお、Workflowは単体でも実行することが可能です。デバッグに用いたり、イベント系で障害があった時は手動で実行したりすることもできます。

ビルドタスク

ビルドタスクではまず、Workflowの引数に渡されたリポジトリ名やブランチ名からをリポジトリをチェックアウトします。githubへアクセスするためにk8sのSecretsからプライベートキーを取得しています。

そこからコンテナのイメージをビルドします。ここでdockerコマンドを利用するために、Docker In Docker(dind)というコンテナをk8sのサイドカーで実行しています。

テストも基本的にはdockerコマンドを利用します。このとき。例えば、MySQLなどテスト実行で依存するサービスも一緒に立ち上げます。また、NearMeではRide ServiceからRouting Serviceを利用しており、Ride Serviceのテスト時にRouting Serviceを立ち上げたりもしています。

最後に、コンテナレジストリ(AWSのECR)にビルドしたイメージをプッシュします。

その他、docker saveとdocker loadコマンドを利用して、dockerのイメージをキャッシュして、毎回ダウンロードしないようにもしています。このキャッシュはk8sのVolumeに保存しています。

また、リポジトリによってはビルドやテスト時間が長いので適宜手動で省略できるようにもしています。具体的には、プルリクエストに付与されたラベルに基づいて、ビルドをスキップしたり、ブランチ派生前からの差分のあるファイルを検出して、そのファイルに直接関連のあるテストだけ実行するようにしています。

さらに、テストのエラーログなどを通知で表示するため、シェルスクリプトの実行ログをファイルに保存してその後の通知タスクで利用できるようにもしています。これはArgo WorkflowsのArtifactsという機能で実現しています。ここではArtifactsのバックエンドとしてS3ライクなMinioを利用しています。

通知タスク

通知タスクでは、前回のビルドタスクの成否を受け取り、プルリクエストのタイトルやコミットのリンク、ビルド時間などをSlackに通知します。また、ビルドエラーがあった場合は前述のArtifactsからログを取得して(文字のエスケープもして)Slackのメッセージに載せています。

さらに、プルリクエストのコメントに貼り付けられたAsanaのタスクのURLを抽出し、AsanaのAPIを利用して、そのタスクのステータスを変更しています。また、そのリンクもSlackのメッセージに載せています。

おわりに

k8s上で動作するArgoを利用したNearMeのCI構成を紹介しました。 GithubのwebhookのイベントからArgo Eventsを介してArgo WorkflowsのWorkflowを起動する仕組みや、 Workflow内のビルドタスクや通知タスクでの工夫などを示しました。ある程度k8sの知識が要求されるのでハードルはありますが、逆にそこを越えればCIとしてやりたいことはできると思います。 Argo自体は非常に汎用的で、まだ利用できてない部分もあるので、これからさらに開発プロセスを進化させていけたらと思います。

最後になりますが、NearMeではエンジニアを募集しています！ご興味のある方はぜひ以下をご覧ください。

採用情報

Author: Kenji Hosoda

相乗り配車の注文処理について

2022-03-23T00:00:00+09:00

はじめに

配車サービスの注文処理はECサイトのそれと似ています。 ECサイトでは商品を検索し、カートに入れて、注文します。このとき、在庫が確保できていれば注文できます。もしくは、後から在庫確保または在庫切れの通知が届く場合もあります。その後、配送手配が行われ、お届け日などが通知されます。

配車サービスでは、商品に対応するのが、出発地と目的地を結ぶ移動手段になります。在庫確保の流れはドライバーの予定を押さえる形になります。このとき配車確定まで時間がかかる場合もあります。その後、配車手配が行われ、ピックアップ時刻などが通知されます。

今回は、NearMeの相乗りサービスにおける注文処理について説明します。当サービスでは事前予約で注文を貯めつつ、注文が入る度に最適な相乗りの組み合わせを計算して配車確定を逐次的に行えるようにしています。このような相乗りにおいてどのようなパタンが発生するか見ていきます。

基本的な注文処理

配車における主要な注文処理は、注文申込(Apply) → 配車可否確認(Accept/Reject) → 配車完了(Complete) という流れです。ただし、配車に至るまでに注文がキャンセル(Cancel)される可能性もあります。図で示すと以下のようになります。

ここで配車可否確認においては、いくつかの方法があります。一つは、運行管理者が全体の運行スケジュールを見てドライバーの予定を押さえる方法です。この場合、注文申込から配車可否確認まで時間がかかります。例えば、24時間以内に回答します、といった形になります。もう一つは、ドライバーが直接配車可否を決める方法です。特にリアルタイムの場合は、注文が入ると近くの車両のドライバーアプリに通知し、そこで配車可否が決定されます。その他、様々な情報を駆使して自動的に配車可否を決めたり、配車率が高ければ投機的に配車可能を伝えることも考えられます。

ここまではフローとしてはシンプルかと思います。

相乗りを考慮した状態遷移

上記の基本的な注文処理において、複数の注文が入ってきたときに、各注文と複数の注文を束ねる運行(Trip)の状態遷移について説明します。

まずは複数の注文が相乗りしながら配車確定していく流れを次図に示します。

注文処理のステップは以下のようになります。

何もない状態からスタートします
注文Aが入ると(Apply A)、仮の運行1(Trip1)が生成されます。
注文Bが入ると(Apply B)、仮の運行1の下で注文Aと相乗りになります。
注文Aを配車確定します(Accept A)。運行1は注文Bがまだ配車確定されていないのでまだ仮の状態です。
注文Bを配車確定します(Accept B)。運行1の配下の注文は全て配車確定されたので、運行1はある種"確定"の状態になります。
一方、3の状態から運行単位で配車確定して(Accept Trip1)、注文Aと注文Bを同時に配車確定することも可能です。
注文Cが入り(Apply C)、3つの注文がまとまった相乗りが成立します。注文Cはまだ配車確定していないので、運行1はまた仮の状態になります。

配車確定前に注文が貯まりながら、相乗り処理が逐次的に行われていることが分かります。

今度は、注文にアサインされた運行が切り替わるパタンについて見てみます。

注文Aと注文Bが、それぞれ配車確定前に相乗りになった状態です。
注文Dが入ると運行が2つになり、注文Bは注文Dとくっつきます。このとき、注文Aと注文Bの対よりも、注文Bと注文Dの対の方が効率の良い運行で、かつ、注文Aと注文Bと注文Dの3つでは相乗りが成立しない状況になっています。
注文Dを配車不可(Reject)すると、再び注文Bは注文Aとくっついて、運行2は消滅します。

配車確定前に貯まった注文同士で、ダイナミックに相互作用しているのが見てとれます。

一方、素朴に運行管理者が予定を押さえる場合は、運用の煩雑さから"配車確定後の注文は別の運行に切り替わらない"という縛りを加えることが可能です。この場合は次のようになります。

注文Aが単独、注文B、Dが相乗りで配車確定になった状態です。
"配車確定後に別の運行に切り替わらない"場合、注文Dがキャンセルされると、注文Aと注文Bが別々の運行のままになります。

先ほどは注文が却下/キャンセルされると運行が1つになったところが、今回は運行が2つのままになっているのが分かります。なお、この縛りは設定によって変えることができ、ここは運用の煩雑さと配車効率のトレードオフになります。

時間確定処理

事前予約型の相乗り配車では、先の注文申込(Apply) → 配車可否確認(Accept/Reject) → 配車完了(Complete) の処理フローにおいて、配車確定後にさらに時間確定(Finalized)が追加されています。ピックアップ時刻はある程度時間幅を持たせることで相乗りが成立しやすくなりますが（参考）、逆に、ユーザーにとっては予定が立てづらくなって不便です。そこで、あるタイミング、例えば、乗車の1日前のところで、ピックアップ時刻を確定、もしくはその時間幅を短縮するという時間確定処理を行います。

時間確定処理が入った処理フローも相乗りを考慮して見てみます。

注文Aと注文Bが、それぞれ配車確定前に相乗りになった状態です。
運行1を時間確定します(Finalize Trip1)。時間確定処理は注文単位ではなく運行単位で行います。このとき、各注文のピックアップ時刻の時間幅が短縮されます。完全に時刻を確定させると追加の相乗りがほとんど発生しなくなるので（前後にくっつくか、全く同じルートの注文にくっつくかのみになります）、実用的には少し時間幅を残します。そして、ユーザーには確定したピックアップ時刻を通知します。なおここで、追加の相乗りがあってもピックアップ時刻が早まることはないようにしています。
注文Cが入り、注文Aと注文Bと相乗りします。
再度、運行1を時間確定します(Finalize Trip1)。このとき、注文Cにピックアップ時刻を通知するとともに、注文Aと注文Bにおいてピックアップ時刻が変更した場合は、それぞれそのユーザーにその時刻を通知します。
注文Bがキャンセルされると、少し非効率になりますがピックアップ時刻は変わらずに注文Aと注文Cが運行1に残ります。

時間確定処理後も、よりきつい時間制約の下で追加の相乗りが発生しているのが分かります。

別の運行に渡す処理

最後に、ある注文を今の運行から剥がして別の運行に渡す処理(Skip)についても見てみます。この処理は、ある注文に対して特定の運行にアサインさせないという制約を加えることで実現します(参考)。追加の相乗りがあったけど、諸々のスケジュールの関係でこの運行では行けないので、別の運行に注文を渡してとってもらうことを想定しています。

注文Aと注文Bが異なる運行でそれぞれ配車確定していて、追加の注文Dが入って注文Bと相乗りになった状況です。
注文Dを今アサインされている運行2から剥がすことにより(Skip D)、注文Aと相乗りになります。
さらに注文Dを今アサインされている運行1から剥がすと(Skip D)、既に剥がした運行2とはくっつけないため、今度は独立した運行になります。

より複雑な制約条件の下、逐次的に相乗り処理が行われているのが分かります。

おわりに

事前予約型の相乗り配車サービスの注文処理における様々な状態遷移を見てきました。注文申込、配車可否確認、キャンセル、時間確定、別の運行に渡す処理などの操作によって、単体の注文の状態だけでなく、別の注文と相互作用して様々なパタンが発生することを示しました。また、処理過程において、ピックアップの時間幅を短縮したり、特定の運行にアサインさせないなど、制約条件が細かく変わっていくことも示しました。このようなパタンを緻密に管理することでサービスが実現されていることが伝わればと思います。

採用サイトはこちら

Author: Kenji Hosoda

配車オーケストレーション

2021-12-15T11:37:18+09:00

はじめに

NearMeでは相乗りシャトルのサービスを展開していますが、その配車ルーティングを実装してきて気づいた点があります。クラウドの基盤技術である"コンテナオーケストレーション"と似た構造がある点です。

コンテナオーケストレーションは、コンピューティング環境で動くアプリケーションをコンテナと呼ばれる単位で管理し、コンピューティングリソースを適切に割り当て、協調的に動作させる技術です。

コンテナオーケストレーションを実現する代表的なツールとしてKubernetes(クーバネティス、以降k8sと略します)があり、ここでは特にk8sと配車ルーティングとのアナロジーについて考えてみます。

構成要素

k8sでは、コンテナ・ポッド・ノードという階層的な構成要素があります。コンテナは単独のアプリケーションを動かす実行環境です。ポッドは、複数の密接に関連したコンテナをまとめたものです。コンテナはその共有リソースとともにポッド単位で管理されます。ノードは一つの物理サーバー、または、仮想マシンを表していて、複数のポッドがその上に配置され実行されます。

一方、配車ルーティングでは、乗客/荷物、注文、車両という階層的な構成要素があります。乗客/荷物は最小単位の積載物です。注文は、複数の乗客/荷物に対する運送を要求します。車両は、特に相乗りを許すと、複数の注文を束ねて運行します。

スケジューリング

k8sでは、各ポッドを様々な制約や評価を考慮して最適なノードに割り当てるスケジューラがあります。例えば、ポッド作成時に、リソースに空きのあるノードを探し、ノード間でリソース使用率に偏りがないように割り当てます。また、スケジューラはプラグイン的に拡張でき、ポッドを削除して再スケジュールするものもあります。

一方、配車ルーティングでは、各注文を様々な考慮のもと車両に割り当てるスケジューラがあります。例えば、注文が入ると、迂回時間や待ち時間、車両のキャパなどから配車可能な車両を探し、全体としてルートが短くなるように割り当てます（参考）。このとき、既存の注文も車両を跨いで再配置することもあります（参考）。

オートスケール

k8sでは、リソース不足でポッドがスケジューリングできない時に自動的にノードを追加することが可能です。逆に、負荷が低い時にノードを自動的に削除することも可能です。

一方、配車ルーティングでは、注文が増えていくと必要な車両も増えていきますが、特に事前予約型の注文の場合、"仮想的な車両"を自動的に増やして注文を割り当てることが可能です。後からその仮想的な車両を実際の車両に置き換えます。注文のキャンセルがあって車両が必要なくなった場合はその車両を減らします。

ただし、k8sではノードのみならずポッドもスケールしますが、配車ルーティングでは一般に車両のみがスケールします。一応、注文のスケールは保険的に複数の車両を確保するような状況として捉えられるかもしれません。

リソース管理

k8sでは、CPUやメモリなどコンテナが必要とする各リソースの量を指定することができます。そしてポッド作成時に、ポッドに紐づくコンテナのリソースの量を集計し、リソースが確保できなければポッドはそのノードに割り当てられなくなります。

一方、配車ルーティングでは、乗客や荷物が占有する座席数や容量があります。小さい子供や大きな荷物など単体で占有量が異なるものもあります。車両には、座席やトランクの最大数/量があり、注文が要求する数/量を確保できなければその車両に割り当てることはできません。

ただし、k8sのリソースの量には最小と最大を指定できますが、配車ルーティングの占有量の指定は一般に最小=最大となります。

アフィニティ

k8sでは、ノード上のポッドの配置の条件を、特にアフィニティと呼ばれる方法で細かく指定することができます。例えば、ノードとポッドそれぞれに任意のラベルをつけることができ、ポッドを特定のラベルがついたノードに強制的/優先的に割り当てたり（ノードアフィニティ）、特定のラベルがついてないノードに割り当てたりすることができます（ノードアンチアフィニティ）。また、ポッドを特定のラベルがついたポッドを含むノード（やゾーンなど）に共存させたり（ポッドアフィニティ）、避けたりすることができます（ポッドアンチアフィニティ）。さらに、ノードアフィニティとはある種逆に、特定のノードに特定のポッドのみを割り当てる機構もあります（ノードのテイントとポッドの容認）。

一方、配車ルーティングでは、例えば、注文に、チャイルドシート、ペット、車椅子などの要求があれば、特定の車両に割り当てた方がいいことがあります（車両アフィニティ）。また、営業区域の事情で、ある注文を特定の車両には割り当てないようにしたいこともありそうです（車両アンチアフィニティ）。さらに、なるべく親しい人同士で相乗りしたい（注文アフィニティ）、もしくはしたくない（注文アンチアフィニティ）といったことも考えられます。特定の注文しか受け付けない車両もあるかもしれません（車両のテイントと注文の容認）。

おわりに

コンテナオーケストレーション、特にk8sの構成要素やスケジューリング機構をはじめとする幾つかの要素技術において、相乗りシャトルの配車ルーティングとのアナロジーを見出してきました。

このアナロジーから、別分野ですが洗練されたk8sからの洞察を得て、配車ルーティングの実装の参考にしたり、概念を整理できればと思っています。実際、アフィニティの概念などはk8sから輸入して実装したところもあります。また、ここでは紹介してないですが、k8sの宣言的な作りも参考にしてきました。今後、k8sの自律分散的な挙動も参考にできるのではと考えています。

最後になりますが、NearMeではエンジニアを募集しています！カジュアルな面談も可能ですので、お気軽にご連絡ください。

採用サイトはこちら

Author: Kenji Hosoda

Dartsで事前予約を加味した時系列の需要予測をしてみる

2021-09-21T13:56:57+09:00

はじめに

今回は、事前予約型の乗車サービスにおける乗車需要を時系列解析を用いて予測します。ポイントとなるのが、注文日時と乗車日時の間に数日間のラグがあることです。典型的には、過去の乗車実績の時系列の変動から未来のそれを予測します。事前予約型ではさらに、事前に注文された乗車予定のデータを加味することが効果的であると考えられます。ここでは、シミュレーションによって事前予約型の注文のトイデータを作成し、事前予約を加味した時系列モデルを構築し検証します。また、同じモデルで実際のデータでの検証結果の概要も示します。

時系列解析を行うにあたっては、DartsというPythonのライブラリを利用しました。統計的手法や機械学習含め多数の時系列解析の予測モデルが備え付きで利用できます。そして、時系列データに対する様々な操作、モデルの構築・検証などが、統一的なAPIを通して利用できます（参考１、参考２）。コード断片を通してこちらも紹介できればと思います。なお、今回利用した一連のコードはこちらに公開しています。

乗車実績のトイデータ作成

まず、乗車日時の確率分布が、週毎、月毎、四半期毎に周期的になるようにして、乗車日時のリストをランダムに生成します。

from darts.utils.timeseries_generation import sine_timeseries, constant_timeseries
time_length = 365
sample_size = 10000
distribution = sum([
    sine_timeseries(length=time_length, value_frequency=(4/365), value_y_offset=1, freq='D'),
    sine_timeseries(length=time_length, value_frequency=(1/30), value_y_offset=1, freq='D'),
    sine_timeseries(length=time_length, value_frequency=(1/7), value_y_offset=1, freq='D'),
    constant_timeseries(length=time_length, value=1, freq='D')])
p_values = (distribution / distribution.sum()[0]).values()[:,0]
times = distribution.time_index.values
ride_start_dates = np.random.choice(times, size=sample_size, replace=True, p=p_values)

そして、それを日毎に集計します。この時系列のデータはTimeSeriesとして格納します。

from darts import TimeSeries
time_counts = dict(zip(times, np.zeros(times.shape)))
uniuqe, counts = np.unique(ride_start_dates, return_counts=True)
for time, value in zip(uniuqe, counts):
    time_counts[time] = value
target_series_df = pd.DataFrame(data=time_counts.items(), columns=['time', 'count'])
target_series = TimeSeries.from_dataframe(target_series_df, freq='D', time_col='time', value_cols='count')

図にプロットします。

target_series.plot()

ノイズがありながらも指定した周期性があるのが分かります。

シンプルな予測

モデルの構築

ここでは、素朴な時系列モデルとして指数平滑化法（ExponentialSmoothing）を利用します。Dartsの内部的には、ホルト-ウィンターズ法という"時系列の変動にトレンドと季節変動を追加し、それぞれの指数平滑の重ね合わせを期待値として算出する方法"を利用しています（参考）。

from darts.models import ExponentialSmoothing
model = ExponentialSmoothing()

学習と予測

ある時点でトレーニング用とテスト用のデータに分割し、トレーニングデータからモデルを学習し、テストデータの予測をします。

split_ts = pd.Timestamp('2000-11-01')
train, val = target_series.split_after(split_ts)
model.fit(train)
prediction = model.predict(len(val))

次の図はその結果で、実測値（target）と予測値（forecast）をプロットしたものです。

テスト期間の初期は比較的予測が合ってますが、時間とともにズレが大きくなっているのが見てとれます。

バックテスト

時系列解析における予測精度を定量的に評価するため、バックテストという方法で検証します。これは、時系列に沿った各時刻ステップにおいて、その時点までのデータを用いて学習したモデルを用いて、特定時刻ステップ先の値を予測していきます。

backtest = model.historical_forecasts(
    series=target_series, 
    forecast_horizon=forecast_horizon, 
    start=split_ts - Timedelta(timedelta(days=forecast_horizon)))

ここで、"forecast_horizon"は何時刻ステップ先（今回の場合は何日先）を予測するかという予測期間を指定します。"start"は予測を始めるタイミングを指します（ここではバックテストで予測された期間を揃えるため、"forecast_horizon"毎に"start"をずらしています）。

次の図は、予測期間を1日先と10日先にして予測したものです。

"1 day forecast horizon"はバックテストにおける1日先の予測、"10 days forecast horizon" は10日先の予測のプロットです。1日先の方が実測データによりフィットしているのが分かります。

バックテストで得た予測データと実測データとの誤差を表す指標として平均二乗偏差（RMSE）を用います。この値が小さいほど予測の精度が高いことを意味します。

from darts.metrics import rmse
print('Backtest RMSE = {}'.format(rmse(target_series, backtest)))

平均二乗偏差は、予測期間が1日と10日の場合それぞれ、5.88と10.75となり、1日先の予測の方が精度が高いことが伺えます。

ベースラインモデルとの比較

先ほどのモデルが自明でない時系列の構造を捉えていることを示すため、もっとプリミティブなベースラインモデルと比較します。ここでは単に学習データの最後の値をそのまま以降の予測値として使用するものを用います。

from darts.models import NaiveSeasonal
model = NaiveSeasonal(1)

次の図は、先の指数平滑化法とベースラインのそれぞれのモデルにおいて、バックテストで算出した平均二乗偏差を予測期間に対してプロットしたものです。

どの予測期間でも指数平滑化法がベースラインモデルよりも平均二乗偏差が小さい=予測精度が高くなっているのが分かります。なお、週単位の周期性があるため、予測期間が7日辺りでベースラインモデルの精度も高くなっています。

乗車予定のトイデータ作成

予測期間毎に、予測期間先の乗車予定のデータを作成します。

そのためにまず、先ほど生成した乗車日時のリストの各要素に対して、乗車日時と注文日時の差を生成します。差の分布は指数関数に従うようにします。

advanced_diffs = np.random.exponential(5, size=len(ride_start_dates))

こちらがそのヒストグラムです。

そして、注文日時と乗車日時の差が予測期間（＋集計タイミング）以上のもので乗車日時のリストをフィルタし、乗車時刻に関して日別にカウントします。

def get_advanced_series(forecast_horizon):
    advanced_start_dates = ride_start_dates[np.where(advanced_diffs >=  forecast_horizon + 1)]
    time_counts = dict(zip(times, np.zeros(times.shape)))
    uniuqe, counts = np.unique(advanced_start_dates, return_counts=True)
    for time, value in zip(uniuqe, counts):
        time_counts[time] = value
    advanced_series_df = pd.DataFrame(data=time_counts.items(), columns=['time', 'count'])
    advanced_series = TimeSeries.from_dataframe(advanced_series_df, freq='D', time_col='time', value_cols='count')
    return advanced_series

次の図は、１日先の乗車予定（"1 day advanced"）と１０日先の乗車予定（"10 days advanced"）のデータを実績データとともにプロットしたものです。

１日先の乗車予定の方が１０日先の乗車予定より、実績データに近づいていることが分かります。とはいえ、１０日先の乗車予定も兆候のようなものは見られます。

事前予約を加味した予測

モデルの構築

今回は、事前予約を加味した時系列モデルとして、線形回帰（Linear Regression）を用いました。実績データと予定データからなる複数の変数から予測したい時点の実績値を回帰します。モデルの概要は次のようになります。

"target"は実績データ、"N advanced"はN日先の乗車予定データです。N日先の実績値を予測するため、未来のN点の乗車予定データと、予測点（"predict"）からM点前から現在（"now"）までの実績データを用います。これらを時系列に沿って取得しモデルを学習させます。ただし、N毎に別々のモデルを作成します。

コードとしてはこのような形になります。

from darts.models import RegressionModel
model_N = RegressionModel(lags=list(range(-M, 1 - N)), lags_future_covariates=list(range(1 - N, 1)) )

"lags"は予測点に対して実績データを学習に利用する際の期間、"lags_future_covariates"は予定データを学習に利用する際の期間です。"future_covariates"は未来に関する情報の変数で、例えば、天気予報の雨量などを設定します（参考）。

モデルの評価

こちらもバックテストにより評価します。

backtest = model_N.historical_forecasts(
    series=target_series,  
    future_covariates=get_advanced_series(N),
    forecast_horizon=1, 
    start=split_ts - Timedelta(timedelta(days=1))

今回は、"future_covariates"としてN日先の乗車予定データを指定します。また、学習は予測点を起点とした時系列のインデックスになっているので"forecast_horizon"は1としています。

次に、平均二乗偏差を予測期間に対してプロットします。比較のため他のモデルによるものも加えました。

"Linear Regression with advanced"は事前予約を加味した線形回帰のモデル、"Linear Regression"は"future_covariates"を考慮しないで線形回帰を行ったものです。"Exponential Smoothing"と"Baseline"はそれぞれ、先ほどの指数平滑化法とベースラインモデルによるものです。事前予約を加味した線形回帰のモデルがどの予測期間に対しても最も低い平均二乗偏差=最も高い予測精度になっていることが分かります。

実際のデータでの評価

最後に、ある条件で抽出した実際の注文データに対して同様の解析を行なったものを示します。具体的には示しませんが、実際のデータ分布は上記のトイデータとある程度似たものとなっています。

図の通り、トイデータと同様に、実際のデータに対しても事前予約を加味した線形回帰のモデルが最も高い予測精度になりました。

その他のモデル

公開したコードでは、線形回帰のモデルの他に、非線形な回帰手法として勾配ブースティングの一つであるLightGBMによる方法も検証しました。結果として、今回のデータでは線形回帰の方がわずかながら予測精度が高かったです。時間的に局所的な部分の線形性が強いためと推察されます。

また、曜日の情報を（sin/cosで符号化して）加味したモデルも構築して検証しました。結果は、曜日を考慮することでわずかながら予測精度が高まりました。特に、予測期間が1週間以降の方が曜日による効果が大きかったです。明示的な周期性の情報が予測に効いていると思われます。

他、Dartsにはニューラルネットワーク系のモデルも多数用意されていますが、今回はスコープ外としました。計算時間がかかるのとパラメタ調整が難しいので手軽には試せないのと、こちらはより大量で複雑なデータに対して威力を発揮するものと考えられるからです。

おわりに

事前予約型の乗車注文データに対して時系列解析を行い、事前予約の情報を加味したモデルの方が乗車需要を高い精度で予測できることを示しました。また、Dartsを用いてこのような解析が手軽に行えることを示しました。サービス開発において様々な場面で過去データから未来を予測することは重要です。今回の解析がその足掛かりなればと思います。

採用サイトはこちら

Author: Kenji Hosoda

RustでOpenStreetMapを触ってみる

2021-08-11T11:43:47+09:00

今回はRustという注目のプログラミング言語を用いて、OpenStreetMapというオープンな地理情報データを触ってみます。

背景

Rustに注目した背景としては、大規模かつ複雑な交通データに対して解像度をもっと上げた課題解決が必要になってきたからです。NearMeのシステムは現状、メインはTypeScriptで書いていて、最適化アルゴリズムに関連する部分をPythonで書いています。スタートアップとして、初動としてはこの構成でよかったと思いますが、更なるチューニングを求めて検討したのがRustです。

Rustの特徴としては、C/C++並の高速な処理速度、安全で効率的なメモリ管理、生産性を高める様々な機能があげられます。Pythonでも、定型の低レイヤーの処理をC/C++で行わせて、高レイヤーの処理をPythonで書くという形で、パフォーマンスと生産性を両立させることができますが、課題によっては限界があります。逆に、全部をC/C++で書くのも大変です。Rustは、流石にPythonよりは簡潔には書けないものの、C++よりは少ない努力で速さと安全性を手に入れることができると思います。別途、Goなどの他の言語との比較をすると込み入りますが、端的に言うと、今回はアルゴリズム周りでよく使われているC++のポジションにより近いということでRustを検討しました。

なお、NearMeのシステムはマイクロサービスで構築しているので、Rustで低レイヤーを書いてバインディングするという方法の他、Rustで一つマイクロサービスを構築するといことも可能です。もちろん、言語の種類が増える弊害もあるので慎重に検討する必要がありますが、その中でRustはユニークで有望な候補になっています。

ここでは、Rustを始めるとっかかりとして、OpenStreetMapのデータを読み込んで可視化したいと思います。OpenStreetMapは、"自由に利用でき、なおかつ編集機能のある世界地図を作る共同作業プロジェクト"です。世界地図は巨大なので、関東などエリアを絞ってデータをダウンロードすることができます。それでも数百Mくらいのサイズで、素のPythonで扱うにはしんどい大きさです。NearMeのシステムでもOpenStreetMapを一部利用しているところがあるのですが、コアな部分はC++で書かれたライブラリを利用しているのでカスタマイズしづらい状況です。OpenStreetMapをRustで扱えるようになれば可能性が拡がると考えています。

Jupyter NotebookでRustを扱う

インタラクティブにプログラミングを試せる環境として、Jupyter Notebookは最適です。利用できる言語はPythonがデフォルトですが、他の言語もJupyter kernelをインストールして利用することができます。

ここではDocker/Docker Composeを用いて、RustのkernelがインストールされたJupyter Notebookの環境を用意します。次のように、こちらのリポジトリをダウンロードしてDockerでコンテナを建ち上げてください。

git clone git@github.com:kenji4569/jupyter-rust.git
cd jupyter-rust
docker-compose up

建ち上げたコンテナのログの最後の方に、

http://127.0.0.1:8888/?token=xxx

という記載があるので、このURLをブラウザで開いてください。

そして、ブラウザ上で、notebooks/evcxr_jupyter_tour.ipynb というノートブックを開いて、Rustのプログラムを実行してみてください。

OpenStreetMapのデータを扱う

データをダウンロード

まずは、https://download.geofabrik.de/asia/japan.html から、kanto-latest.osm.pbf というファイルをダウンロードしてください。これは関東エリアの交通データになります。データはProtocol Buffersで符号化されています。

このファイルをjupyter-rust/notobooksディレクトリに置き、同ディレクトリにて新たなNotebookファイルをkenelとしてRustを選択して作成してください。

データの読み込み

osmpbfreaderというライブラリを用いて、先ほどダウンロードしたデータを読み込んでみます。以下は、そのコードです。

1行目の、

extern crate osmpbfreader;

にて、osmpbfreaderライブラリがダウンロードされ、コンパイルされます。

kernelのセッションごとに、/tmp以下にディレクトリが作られて、そこでファイルが展開されています。kernelをリスタートすると、別のディレクトリになるので、ライブラリを再度ダウンロードしてコンパイルすることになります。ここは遅いのですが、sccacheを利用して多少改善することができます。cargo install sccacheをDockerfileに書いてビルドし直して、:sccache 1をNotebook上で実行すると適用されます。

レコードの1行1行読み込みは、

for obj in pbf.par_iter().map(Result::unwrap) {

にて行われます。今回は全部で約4000万レコードを走査しています。

手元のMacBook(仮想マシン上でCPU: 2.9G x 2, Memory: 16G)では、この走査は8秒程度でした（正確にはtimeitで測りますが、:timingをNotebook上で実行するとセル単位の実行時間を測ることができます）。.par_iter()を.iter()にすると、CPUの並列処理が行われず16秒程度でした。なお、C++をバインドしたPythonのライブラリpyosmiumで読み込むと50秒程度、素のPythonで書かれたライブラリosmreadだと10分くらいかかりました(ただしこちらは素のPythonのprotobufの実装が遅いという要因もあるようです)。ちなみに、GoのライブラリosmpbfはRustと同程度の速度でした。

各レコードは、Node、Way、Relationのいずれかの型になっていて、以下のように場合分けして処理しています。

match obj {
    osmpbfreader::OsmObj::Node(node) => {
        ...
    }
    osmpbfreader::OsmObj::Way(way) => {
        ...
    }
    osmpbfreader::OsmObj::Relation(rel) => {
        ...
    }
}

今回は、それぞれ初回に読み取ったレコードを出力しています。例えば、初回のNodeレコードは、

Node { id: NodeId(31236558), tags: Tags({}), decimicro_lat: 356350730, decimicro_lon: 1397681010 }

となっています。

Nodeは一つの地点を表していて、緯度経度の情報を保持しています。

Wayは複数のNodeからなり境界線を表現しています。NodeとWayからグラフ構造が導かれます。

Relationは、NodeやWayや他のRelationからなり、一括りの有名な道路といった少し大きな構造を表します。

タグの表示

Node、Way、Relationそれぞれの各オブジェクトに対して、複数のTagが付与されています。Tagはkey-valueの形式で、例えば、道の特徴として、 https://labs.mapbox.com/mapping/mapping-for-navigation/road-features-mapping-guide/ にあるようなTagが付与されています。以下のコードでタグを集計して表示します。

一番目のセルでは、Node、Way、Relationそれぞれにおいて、Tagのkey別の集計をとり、回数が多いものを上位から表示しています。まだ一部ですが、様々なタグが存在するのが見て取れます。

二番目のセルでは、"highway"をkeyとするTagにおいてvalue別の集計を行い、回数が多いものを上位から表示しています。特に、Wayにおいて、"primary"や"secondary"といった値があるのに着目してください。これらは道の種類を表していて、経路探索において重要なマーカーになります（参考1、参考2）。

グラフ構造の可視化

最後に、NodeとWayからなるグラフ構造を可視化します。以下のコードでは、東京駅付近にあるNodeとそれに紐づくWayを選択して描画しています。

こちらがその出力です。

ここではNodeを緯度経度を座標とする点、Wayを道の種類で色付けした線として描画しています。赤の線は大通り、青の線は一般的な車道、緑の線は歩行者用の道、灰色の線はその他の境界線となっています。

おわりに

RustをJupyter Notebookで動かせるように環境構築し、OpenStreetMapのデータを読み込んで、そのデータ構造を眺めてきました。Rustは高速に動作する一方、様々なデータ操作を比較的簡潔に書くことができたのではないかと思います。多少独特な部分はありますが、結果的に怪しい書き方が矯正される感覚になります。ここから先もっと色々なアルゴリズムを試せると思いますので、当記事がそのきっかけになれば幸いです（OpenStreetMapに関する有用なRustのライブラリはこちらが参考になりました）。

採用サイトはこちら

Author: Kenji Hosoda

タクシーとバスのなめらかな関係について

2021-07-02T11:25:08+09:00

NearMeの相乗りシャトルは、タクシーとバスの中間となる第三の選択肢としての交通手段を提供します。タクシーはユーザーの利便性は高いですが、少人数しか運べないので配車効率は低く、料金は高いです。一方、バスはその逆です。今回は、相乗りシャトルで用いる主なパラメタについて説明し、一方の極限ではタクシーに、もう一方ではバスに還元できること、そして、それらを"なめらかに"繋げることができることを示したいと思います。

許容迂回係数

許容迂回係数は、単独の場合の乗車時間の何倍まで、相乗りによって迂回して乗車時間が伸びることを許せるかという値です。例えば、東京駅→羽田空港の注文があり、単独で行く場合30分かかるとします。ここで、許容迂回係数が1.5とすると、30分x1.5で45分まで迂回が許されます。このとき、六本木→羽田空港の注文と相乗りすると、東京駅→六本木→羽田空港というルートになり、トータル40分かかるようになったとします。その場合、40分 < 45分なので、この相乗りは成立します。次に、新宿→羽田空港の注文と相乗りすると、東京駅→新宿→羽田空港というルートになり、トータル50分かかるようになったとします。今度は、50分 > 45分なので、この相乗りは不成立になります。

タクシーの場合は最短で着くので、許容迂回係数は1になります。バスの場合は非常に遠回りすることもあり、迂回許容係数は大きな値になります。相乗りシャトルでは、この値は、空港送迎、街中、通勤などのサービスタイプごとに異なります。ユーザーがどの程度迂回を許容できるかと、車両をどこまで用意できるかのバランスによって調整され、より"タクシー的な"使い方、より"バス的な"使い方、も可能です。

許容待ち時間

NearMeの相乗りシャトルでは、出発時刻指定か到着時刻指定かを選べるようになっています。このとき、許容待ち時間というのが裏では設定されていて、最終的な出発/到着時刻は希望した時刻よりズレる可能性があります。例えば、10:00時出発を希望した場合、許容待ち時間が20分だとすると、出発時刻は10:00 ~ 10:20の範囲の値になります。 11:00時到着を希望した場合、許容待ち時間が20分だとすると、到着時刻は10:40 ~ 11:00の間の範囲の値になります。

相乗りがなければ、出発時刻または到着時刻は、指定した時刻通りになります。相乗りが発生すると、お互いの時間制約を守れるように、指定した時刻からズレることがあります。このズレをどこまで許容できるかが、許容待ち時間になり、この時間を増やすほどマッチ率は高まりまが、ユーザーには不便をかけることになります。

ここで、タクシーの場合は、相乗りが発生しないので許容待ち時間は0になります。バスの場合のそれは、前のバスと次のバスの運行間隔であり、この値は大きな値になります。相乗りシャトルでは、この値もサービスタイプごとに調整されます。実際、NearMeの相乗りシャトルでは、街中利用では短く、空港送迎のような長距離では長くしています。また、人によってはとりあえず午前中につければいいなど、個別のユーザーごとに変更することも可能です。さらに、時間帯によっても変えることもできます。

最大乗車人数

配車の効率性に影響するもう一つのパラメタは、各車両の最大乗車人数です。タクシーの場合は3人程度、バスだと数十人乗れたりします。相乗りシャトルの場合は、一般には、6~9人乗りが多いです。

なお、相乗りでは、下図のように乗車と降車が入り混じるので、乗車する人全体ではなく、流れの中で最大になる人数に対しての制約になります。

ユーザーの利便性という意味では、タクシーのような少ない乗車人数の方が快適ですが、配車の効率性を考えるとなるべく多く乗せられた方がいいです。

他方、バスの場合は、数十人乗りなのに数人しか乗ってない、みたいなこともあり、それもまた非効率です。適切なサイズの車両を選択できれば、より効率化できます。実際、NearMeの相乗りシャトルでは、後から適切なサイズの車両を割り当てたり、サービスタイプによっては、最大乗車人数を大きくして、ミニバスのようなもう少し大きめの車両を利用することもあります。

乗車位置の補正距離

乗車位置はタクシーの場合は任意で、バスの場合は固定されています。相乗りシャトルでは、乗車位置は基本的には任意です。ただし、他に乗車する人もいて、よりスムーズな乗車が求められるので、車両が停めやすい場所まで少し歩いてもらったり、近くの人達を一緒に乗車させたりするといった乗車位置の補正をする場合があります。しかしながらこの補正は、バスの時ほどには求められません。

おわりに

許容迂回係数、許容待ち時間、最大乗車人数、乗車位置の補正距離という、相乗りシャトルの主要なパラメタについて説明しました。そして、それぞれ配車効率とユーザーの利便性においてトレードオフがあり、連続的に調整できるものであることを示しました。このとき、配車のサービスタイプなどに応じてパラメタを柔軟に調整でき、その極限においてタクシーとバスがあること示しました。このような柔軟性により、ユーザーのニーズに合わせたより幅広い選択肢を提供できるようになると期待できます。

採用サイトはこちら

Author: Kenji Hosoda

配車ルーティングの状態管理について

2021-06-07T11:40:10+09:00

配車のルーティングにおいて、最適化のアルゴリズムはコアとなる機能ですが、これに相対して開発する必要があるのが、データベースを絡めた永続的な状態管理です。事前予約型の空港送迎の相乗りサービスでは、注文が入る度に逐次的にルーティングを行なっていて、注文全体で時系列に変化する"ルーティングの状態"があります。ここではその状態管理についてアーキテクチャを交えて解説します。

サービス構成

NearMeで構築している配車ルーティングは次の二つのサービスに分かれて処理されています。

一つは、ルーティングサービスで、最適化のアルゴリズムを提供します。データベースとは直接はやり取りせず、永続的な状態を持たずに、入力を受け取って出力を返します。ただし、地点間の最短経路の移動時間を取得するために地図サービスとは連携しています。

もう一つは乗車サービスです。これはデータベースとやり取りして、乗車の諸々の状態を管理します。ユーザー、ドライバー、オペレータからの様々な操作を受けます。そして、ルーティングサービスを介して、現在の"ルーティングの状態"から次の"ルーティングの状態"を算出し、データベースを更新します。

サービスを分けた理由として、まず、それぞれで得意な言語を利用したかったからというのがあります。NearMeでは基本的にTypeScriptで書いていますが、ルーティングサービスは数理最適化のライブラリのためPythonを利用しています。次に、ルーティングサービス単体でCPUに最適化されたマシンでスケールさせたかったというのもあります。乗車サービスではボトルネックはデータベースになる一方、ルーティングサービスではボトルネックはCPUになるからです。また、ステートレス、ステートフルで境界を分けた方が整理しやすいというのもあります。結果的に、コードベースはそれぞれ大きくなり、この分割によって見通しはよくなっています。

状態遷移

配車のルーティングでは、どの注文とどの注文をマッチングさせるかを決めます。各運行において、どの順番で乗車させて、どの順番で降車させるかも決め、複数の経由地からなるルートも算出します。あまりにルートが長すぎるとマッチングは非成立となります。また、車両に乗れる人数以上を乗せることになったり、あらかじめユーザーが決めた希望出発/到着時間から離れてもマッチングは非成立となります。

一般にこれは組合せ最適化問題を解くことになり、扱う要素数が増えると爆発的に計算量が増えます。そのため、組合せ最適化問題に帰着する前に、まず、適切な数の注文数に絞ります。ただし、絞り込んだ注文とそれ以外の注文はなるべく互いマッチしないようにします。例えば、空港送迎の相乗りサービスでは、初めに大きく時間と空間で絞り、時間として日付を、空間として配車サービスのマルチテナント化についてで説明した「羽田空港送迎」のようなサービスのエリアを用いています。この絞り込みはデータベースのインデックスにより高速に行われます。

絞り込みの後は、注文が入る度に、また注文がキャンセルされる度に、配車のルーティングを行います。このとき、前回のルーティング結果を保存しておいて、それを基に最適化アルゴリズムを用いて次のルーティングを算出します。なお、アルゴリズムの中では、出入りする注文に対してさらに"近い"注文に絞って、山登り法的に組合せ最適化問題を解いています。

ここで各注文の配車可否という状態が加わると、また性質の異なる状態を考慮する必要があります。注文が入ると、運行管理者またはドライバーに通知され、そこでルートや在庫状況などを考慮して配車可否を判断します。特に事前予約の場合、配車可否までに多少時間がかかることもあります。したがって、その間に注文が入ったり、キャンセルされたりする可能性があります。このとき、配車可能な注文だけからなる"ルーティングの状態"と、配車可能な注文と配車未決定の注文からなる"ルーティングの状態"に枝分かれします。前者を"正規の状態"、後者を"ドラフトの状態"と定義します。ユーザーやドライバーには"正規の状態"が提示されますが、承認者には"ドラフトの状態"が提示されます。"ドラフトの状態"は、正規の状態から派生し、いくつかのステップを経て、正規の状態にマージされます。各運行においてそれに紐づく注文全てが承認になった時、それらの注文がマージされます。逆に、ここで枝分かれできないと、配車可否の間に追加の注文を受けられず機会損失になります。

ルーティングの各ステップにおいては、より良い最適化のため、注文同士はくっついたり、離れたりします。一旦くっついてても、他の注文とくっついた方がよい場合は離れることもあります。更新の影響範囲を考えると、入力した注文とそれにマッチした注文だけでなく、絞り込んだ注文全てにおいて、どの注文も変化する可能性があります。ルーティング結果の保存の際は、この変化した部分を抽出して差分更新しています。この幅広い影響範囲は後述するロック処理にも関わってきます。ただし、この運行跨ぎの注文の再配置はオペレーションが煩雑になる懸念もあり、配車未決定の注文に限定できるようにもしています。

補足として、このような逐次的な方法ではなく、あるタイミングで一気にルーティングを行うバッチ型の方法もあります。バッチ型の方が状態管理としてはシンプルです。また、逐次的でも現実的に妥当な解は得られていますが、バッチ型で一括で時間をかけて問題を解いた方がより良い解は見つかる可能性はあります。デメリットとしては、配車可否の判断がバッチのタイミングになってしまうので、ユーザーは配車可否が判明するまでより待たされることになります。また、バッチの後に入ってきた注文を処理するには、また別の仕組みが必要になります。

ロック処理

データベースの処理において注意しなければならないのが、データの整合性を保つためのロック処理（排他制御処理）です。注文やキャンセル、配車可否といった非同期のリクエストを、 "ルーティングの状態"という共有したリソースに対して行う際にロックが必要になってきます。

簡単な例として、同じ注文に対して、ユーザーのキャンセルと運行管理者の注文承認を同じタイミングで行うとどうなるでしょうか。本来、注文承認はキャンセルが行われたら処理できないというバリデーションで弾かれます。ロックがないと、キャンセルと承認が同時にリクエストされたとき、それぞれまず同じ状態の注文を参照する可能性があります。この場合、未承認の注文です。その後、キャンセルリクエストが処理され、注文の状態がキャンセルになります。追って承認のリクエストが処理されると、このリクエストは未承認の注文として元の注文を参照しているので、先のバリデーションが効かず、注文の状態を承認にしてしまいます。ユーザーはキャンセルしたと思ってるのに、注文は承認されて処理されてしまうことになります。ロックがあるとこのようは不整合を防ぐことができます。

ロックの方法には、悲観的ロックと楽観的ロックがあります。悲観的ロックは、共有するリソースをロック対象として指示し、他リクエストの読み取りを防ぎます。先の例だと、キャンセルと承認が同時にリクエストされたとき、どちらか一方が先に処理されて状態を更新した後、もう片方が処理されます。キャンセルが先に処理された場合、非承認のリクエストは、キャンセルの状態を読み出すことになるので、バリデーションで弾かれます。楽観的ロックは、一旦、投機的にそれぞれのリクエストを実行しておいて、状態更新時に読み出した状態から変化があれば、その処理を破棄します。

悲観的ロックか楽観的ロックかという話は込み入るのですが、基本的には、悲観的ロックの方が単純で扱いやすいと考えています。楽観的ロックでは、変化を検出するためにバージョンを各レコードに追加するとともに（状況によってはタイムスタンプでも代替可能です）、データが競合し更新に失敗した時のリカバリ処理を考える必要があります。特に、リカバリ処理を自動で行うにはキューのシステムが必要で、こちらも注意深くケアする必要あります。競合が稀にしか起きず自動リカバリが必要ないとき、どうしてもスループットを上げたいとき（投機的実行が増えるのでシステム負荷は上がります）、また、データベースの特性上悲観的ロックが使えないときなどに利用されると思います。後から楽観的ロックを実装するというのも選択肢としてありだと思います。

前置きが長くなりましたが、注文全体で時系列に変化する"ルーティングの状態"の場合も、注文が入る度、キャンセルされる度にロックが必要です。前述したように、粒度の大きな絞り込み以降、どの注文が変化するかは基本的に解いてみないと分からないので、悲観的ロックの場合は、その絞り込みのところでロックをかける必要があります。実際には、ロック用のテーブルを用意し、日付xエリアをキーとするレコードを作成してロックをかけます。なおこの時点で、最適化アルゴリズムの処理速度からスループットの上限が決まってしまいます。現時点で、この値は問題ないレベルですが、もし限界が来たら更なる時間分割、エリア分割して、ロックの粒度を細かくする必要があります。

他方、"ルーティングの状態"に対して個々の注文でバージョン管理するような楽観的ロックを行うことも可能です。しかしこの場合、新たな懸念があります。例えば、新規注文とキャンセルが同時にリクエストされたとき、新規注文は、キャンセルが行われた運行に対してマッチできたところが、マッチされない可能性があるのです。キャンセルされてない"ルーティングの状態"を基に次の"ルーティングの状態"を求めているためです。このとき、前述した影響ありうる注文セット全体を悲観的にロックする場合はどうでしょうか。キャンセル→新規注文の順番で処理された場合は当然、新規注文はキャンセルが行われた運行に対してマッチします。新規注文→キャンセルの順番では、新規注文は一旦その運行にマッチしませんが、次にキャンセルが行われたときに、キャンセルの注文に"近い"注文で再配置されるので、先ほどマッチしなかった新規注文が今度はマッチする可能性があります。全体の最適化という観点では、このような悲観的ロックに分があると考えられます。

おわりに

NearMeで構築している配車ルーティングの状態管理について説明しました。サービス分割、データの絞り込み、逐次的な最適化、ドラフトの分岐、運行を跨いだ注文の再配置、ロック処理など、様々な考慮が必要でした。そして、それらがルーティングの性能に関わっていることを示しました。

最後になりますが、NearMeではエンジニアを募集しています！配車ルーティングの最適化についてさらに詳しく知りたい、また、自分ならもっと最適化できると思われた方はぜひ応募いただければと思います。

採用サイトはこちら

Author: Kenji Hosoda

配車サービスのマルチテナント化について

2021-05-08T22:40:59+09:00

配車サービスを開発するにあたって、初めから取り入れようと思ったのがマルチテナント化です。マルチテナント化とは、多くのSaaSサービスで見られるように、一つのアーキテクチャで複数の企業が個別にサービスを利用できるようにすることです。結果としてこの機能は、配車固有の事情と相まって、事業展開に重要な役割を果たしてきました。ここではその導入背景やアーキテクチャなどについて説明します。

背景

海外の配車サービスだと、個人のドライバーがユーザーの注文を直接受けるというのが多くあります。一方、日本では、規制もあり、個人のドライバーというよりは、地域ごとのタクシー・ハイヤーの運行会社に所属しているドライバーが注文を受けるのが一般的です。

注文は、直接配車アプリに通達されることもあれば、運行会社を経由することもあります。運行会社は、そこで配車可否確認やドライバーの指示をしたり、運行スケジュールを組んだりします。個別に配車システムを持っている場合もあります。

各運行会社とどこまで密に連携するか、というところがマルチテナント化の判断ポイントです。運行会社ごとに配車システムを提供できるようなマルチテナント化です。連携を疎結合にして、個々のドライバーとユーザーとのマッチングに限定すれば必ずしもマルチテナント化は必要ありません。しかし、事前予約含めた全体の運行スケジュールを考慮するといったマッチングの全体最適をするには、マルチテナント化して内部に踏み込む必要があります。

結局、NearMeでは、事前予約型の空港送迎の相乗りサービスの検討において、各運行会社と密に連携することでより深く最適化を行えると感じたのでマルチテナント化を採用しました。ただし、既存の配車システムを丸々置き換えるつもりはなく、マッチングの最適化のための機能にフォーカスして開発しています。

アーキテクチャ

基本構造

マルチテナントの設計にあたって、参考にしようと思ったのはGithubです。データ構造が汎用的で、権限まわりが簡潔で扱いやすいというのが理由です。

Githubでは、「リポジトリ」というリソースと、そのリソースに対して、「組織」、「メンバー」、「チーム」に基づいた権限管理が行われます。個人利用と組織利用がありますが後者の場合は、ざっと説明すると次のようになります。

1つのリポジトリは1つの組織に紐付く
1つの組織は複数のリポジトリを持つ
1人のメンバーは複数の組織に所属する
1つの組織に複数のメンバーが所属する
各メンバーはその組織のオーナーかそうでないかが選択できる
オーナーはその組織が持つリポジトリに対してあらゆる操作が行える
オーナーでないメンバーはチームによって権限を管理する
1つのチームは1つの組織に紐付く
1つの組織は複数のチームを持つ
各チームには複数のメンバーが所属する
チーム単位で、どのリポジトリにどういった権限を付与する（読み取り専用など）

これを配車サービスに置き換えて考えてみると、リポジトリというのが、地域固有の配車サービスに対応できます。例えば、「羽田空港送迎」、「成田空港送迎」、「〇〇スクール送迎」などがそれぞれ個別のリポジトリに対応します。組織に対応するのが、各運行会社です。メンバーは運行オペレータになります。そして、各メンバーがどのサービスに対してどの役割があるかというのを、チームにて設定します。

このようなデータ構造が実際のフローでどのように関わっているかを見てみます。例えば、「羽田空港送迎」に注文が入ると、注文は「羽田空港送迎」というサービスに紐づきます。料金は「羽田空港送迎」のサービスの設定に基づいて決まります。対応エリアかどうかもそのサービスの設定に基づいて判断されます。その後、「羽田空港送迎」を所有する組織のメンバーが注文に対応します。ルート情報や運行スケジュールに基づいて配車可否を判断し、配車可能の場合、組織に登録されている車両を割り当てます。これらのオペレーションの権限はチームごとに与えられます。

組織間連携

上記の基本構造で表現しきれないものとして、あるサービスで複数の運行会社が参加して注文を取るといった組織間連携が必要な機能があります。ここで参考にしたのが、例えば、AWSのクロスアカウントでのリソース共有のような仕組みです。今回の場合、サービスごとに他組織に共有するという形で実現しました。例えば、「羽田空港送迎」というサービスに入った注文を、そのサービスを所有する組織Aだけでなく、別の組織Bが取れるように、そのサービスにおいて組織Bを共有します。

終わりに

現時点で、マルチテナント対応の基本的な配車システムはできてきました。今後の展望として、組織間だけでなく個別のサービス間でも連携して、より緻密な運行の実現を探りたいと思っています。また、Slackのようなイメージで、メンバー向けのリアルタイムな仕組みも取り入れていきたいです。さらに、近い将来自動運転が当たり前になった世界でも通用できるように準備しておきたいところです。

最後になりますが、NearMeではエンジニアを募集しています！まだまだ多くの可能性が潜んでいる領域です。興味を持った方はぜひ応募いただければと思います。

採用サイトはこちら

Author: Kenji Hosoda

NearMe Tech Blog 開始します！

2021-04-27T11:58:36+09:00

はじめまして。株式会社NearMeのCTOの細田です。 NearMeでは、AIを活用した相乗り送迎サービス「スマートシャトル」を展開しています。この度、私達が挑戦している領域の技術的な面白さや奥深さを伝えていけるように、技術ブログを開設しました。

日々の課題解決や技術調査などから得られた様々な知見を共有できればと思います。また、アーキテクチャや新機能、技術戦略なども紹介していくつもりです。

どうぞよろしくお願いいたします。