일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 카트폴
- Instagrame clone
- 리액트네이티브
- pandas
- 정치인
- coding
- 조코딩
- selenium
- 전국국밥
- ReactNative
- kaggle
- 사이드프로젝트
- redux
- FirebaseV9
- React
- Ros
- clone coding
- 데이터분석
- 앱개발
- 크롤링
- 머신러닝
- expo
- 딥러닝
- App
- 강화학습
- JavaScript
- 클론코딩
- python
- 강화학습 기초
- TeachagleMachine
- Today
- Total
목록분류 전체보기 (88)
qcoding
* 본 글은 이전 발행글에서 아래의 githup의 코드를 그대로 가져와서 사용하였던 것을 수정하여, functional API 방법을 사용하여 코드를 고친 내용이다. 글의 큰 의미는 없으며 n_future 라는 새로운 미래 예측의 sequnce를 편하게 변경할 수 있게 변경하였다. https://github.com/flaviagiammarino/lstnet-tensorflow GitHub - flaviagiammarino/lstnet-tensorflow: TensorFlow implementation of LSTNet model for multivariate time series forecasting. TensorFlow implementation of LSTNet model for multivariat..
* 본 내용은 LSTNET이라는 Modeling Long- and Short-Term Temporal Patterns with Deep Neural Networks 논문에서 사용된 CNN+GRU의 Skip connection과 ARIMA 모델등에서 사용된 AR(Auto Regression)을 합친 것으로 시계열 예측에 사용되는 방법을 실습해 보았다. 코드는 아래의 git-hup을 보고 model을 사용하였으며, 필요한 부분은 수정하여 사용하였다. https://github.com/flaviagiammarino/lstnet-tensorflow GitHub - flaviagiammarino/lstnet-tensorflow: TensorFlow implementation of LSTNet model for m..
* Bulding 소모 전력 예측을 위한 시계열 모델인 SARIMA 모델 사용방법 => 제공된 데이터는 2018-07-01 00:00:00 ~ 2019-12-31 23:59:00 까지의 데이터로 1분단위의 전기제품의 kw 의 소모량으로 되어 있는 데이터 set임 => 분단위 데이터는 너무 많으므로 최종적으로 일단위로 묶어서 일별 소모 전력량을 예측하는 모델을 만들어 봄. 1) 데이터 주중 / 주말 패턴 분리 2) 최소 단위의 계절성 성분 찾기 3) 예측할 데이터 프레임 생성 4) pmd arima 사용 5) 예측하기 5-1) n_period를 test 사이즈와 동일하게 한번에 예측하기 5-2) n_period를 1개씩 추가하여, 새로운 관측치가 들어올때 마다 모델을 학습한 후 예측수행 1) 데이터 주중 ..
** 이번 실습은 앞선 글의 DDPG 이론을 Mountain Car 문제에 적용하는 실습이다. MountainCar 문제 중 Continuos Action Space를 갖는 문제에 대해 적용해 볼 것이다. 이번실습에서 진행하는 코드는 아래의 블로그를 참조하여 만들었으며, Mountain Car에 대한 문제는 이전 블로그를 참고하면 자세히 알 수 있다. https://pasus.tistory.com/138 Tensorflow2로 만든 DDPG 코드: Pendulum-v0 OpenAI Gym에서 제공하는 Pendulum-v0 환경을 대상으로 DDPG 알고리즘을 Tensorflow2 코드로 구현하였다. 학습결과는 다음과 같다. DDPG는 오프-폴리시 방법으로서 온-폴리시인 A2C에 비해서 데이터 효율이 pas..
* 이번에 살펴볼 내용은 DDPG에 대한 내용이다. DDPG (Deep Deterministic Policy Gradient)의 약어로 "확정적 Policy"를 사용하는 알고리즘이다. 이번에는 글을 2개로 나누어서 작성할 예정이며, 첫번째는 이론을 살펴보고 두번째로 실습을 진행하려고 한다. * 해당 내용은 아래의 유튜브를 보고 참고하여 작성하였습니다. 고려대학교 오승상 교수님의 유튜브인데 설명을 매우 잘해주셔서 이해가 잘되었습니다. 글에서 나오는 PPT는 교수님께서 올려주신 파일의 일부분을 사용하였습니다. https://www.youtube.com/playlist?list=PLvbUC2Zh5oJtYXow4jawpZJ2xBel6vGhC 오승상 강화학습 Deep Reinforcement Learning 고려..
** 이번 실습은 이전 A2C 실습 중 Continuos A2C를 사용했던 것을 A3C로 변경한 것이다. 기본적인 내용은 Continuos A2C 과 동일하며, A3C로 확장할 수 있게 Global Network와 Local Network 구조를 활용하였다. 2023.02.15 - [머신러닝 딥러닝] - [강화학습]Continuos A2C(연속적 A2C)_mountain Car [강화학습]Continuos A2C(연속적 A2C)_mountain Car * 이번 실습은 Continuos A2C 실습으로 아래의 Mountain Car Continuos 환경에 연속적 A2C알고리즘을 적용해보는 실습을 하였다. https://www.gymlibrary.dev/environments/classic_control/..
* 이번 실습은 A3C (Asynchronous Advantage Actor-Critic)에 대한 실습내용이다. 실습의 적용은 Cartpole과 Mountain Car에 적용하였으며, 결론적으로 Cartpole의 환경에서만 문제를 해결하였다. 현재까지 실습을 진행한 알고리즘을 정리하면 - > value_based (dqn) -> Policy_based (Reinforce / TD1step - A2C / TD1step - Continuos A2C ) 이며, Mountain Car 환경이 성공한 것은 off-policy value_based인 dqn 알고리즘이다. Mountain car와 같이 즉각적인 보상이 아닌 goal에 도착했을 때 큰 보상을 얻는 환경의 경우 on-policy알고리즘으로 action을..
* 이번 실습은 Continuos A2C 실습으로 아래의 Mountain Car Continuos 환경에 연속적 A2C알고리즘을 적용해보는 실습을 하였다. https://www.gymlibrary.dev/environments/classic_control/mountain_car_continuous/ Mountain Car Continuous - Gym Documentation Previous Cart Pole www.gymlibrary.dev 해당 실습의 코드는 아래의 책을 구매한 후 공부를 하며 진행하였으며, 편의를 위해 몇가지 부분을 추가하거나 수정하였다. https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 ..