본문 바로가기
예바의 LAB

[논문 리뷰] SRDFM (2)

by 예바두비두밥바 2024. 4. 14.

Siamese Response Deep Factorization Machine to improve anti-cancer drug recommendation

항암제 추천도 향상을 위한 SRDFM


Methods

1. The overall structure of SRDFM

: SN은 가중치, 파라미터, 아키텍처가 동일한 2개의 Subnetwork로 구성

 

SUBNETWORK1) The feature generation level

    a. Chemical feature generation component + Embedding layer

        (Embedding layer_이산적인 약물의 fingerprint를 연속적으로 매핑)

    b. Genetic feature generation component + Response Unit

        (Response Unit_유전자에 대해서 약물의 선호도에 따라 각 유전자에 가중치 부여)

 

SUBNETWORK2) The predictor construction level

    a. FM component

      : 데이터의 이산적인 특징(feature)/low-order feature 사이의 상호작용 학습

    b. DNN component models

      : high-order feature 사이의 상호작용 학습

    c. outcome generation component

      : a와 b의 output 연결(=prediction component) ← 선형 회귀(linear regression) 수행

2. Feature generation level

  1) Chemical feature generation component

       [Embedding Layer]

       Previous One Hot encoding

       Problem drug property vector의 dimension(=881)이 높고, 부족

       Solution  각각의 drug property vector의 dimension → dense real value vector로 변환

                         : 8 dimension, fully-connected network에서 학습된 가중치

 

  2) Genetic feature generation component

 [Response Unit]

      Previous 다른 약이 사용될 때 각각의 세포 주는 동일한 gene expression vector로 나타냄

      Problem 유전자에 대한 약의 영향 고려 X → model 성능 약화

      Solution 과거의 특정 유전자 반응을 바탕으로 약물의 선호도 측정

                           → 선호도 바탕으로 반응 예측에 도움

 

     약물에 따라 하나의 세포 주에 중요한 유전자 고려 → 부가적인 가중치 부여

      ⇒ 약물이 달라짐에 따라 다른 gene expression

 

     - MLP 학습Signoid 함수를 통해 후보 약물 D의 response weight 결정

       (MLP의 결과물에 Signoid 함수를 대입해 정규화)

        Previous Softmax 정규화 사용

        Problem 세포 주의 feature 높고 average weight 거의 사라짐)

        Solution Signoid 함수 사용

 

    - gene expression level과 조합

 

3) Connection

: weighted genetic feature vector와 embedded drug feature vector 결합

→ Predictor construction level의 input으로 사용

3. Predictor construction level

1) FM component

Previous Linear Regression, 독립 변수와 상관 변수와의 연관성 찾음

Problem 여러 약물과 함께 복잡한 세포 주의 생물학적 메커니즘을 다루기 불충분

Solution FM(Factorization Machine)_factorized parameters를 사용하며 feature interaction을 모델링
               → first, second-order feature interaction 학습

 

⇒ Feature extractor, Low order feature 상호작용 학습

 

2) DNN component

: 다층 순방향 피드백 신경망

 

Input Embedded drug property vector와 weighted gene expression vector의 Concatenation

 

Develop

[Deep Tensor Factorization]

  • Different numbers of hidden layer
  • Rectangular layer(각각의 은닉층에 고정된 수의 뉴런을 가진 레이어)
  • Conical layer(각각의 은닉층이 2등분된 레이어)

[Optimization Algorithm]

  • Stochastic gradient descent
  • Adam
  • Adaptive gradient algorithm(AdaGrad)
  • Momentum

→ AdaGrad가 가장 최적의 알고리즘으로 설정

 

[Batch Normalization]

 over-fitting(모델이 학습 데이터와 일치해 미확인 데이터에서 수행 불가능) 예방

 

⇒ High order feature 상호작용 학습