기간 : 12-09 ~ 12-15

3일간 그만보기

게시물의 신뢰도  4

황** 2023-07-04 12:16

오늘 게시된 에이씨티앤코아 평택 통관완료율에 대한 질문입니다.


7/4 09:00 게시

7/3 전체완료율 6.89%


7/4 12:00 게시

7/3 전체완료율 32.66%, 당일완료율 7.92% ==> 추산 7/3 마감 전체완료율 24.74%


전체완료율 차이 

17.85% = 24.74% - 6.89% ==> 완료건수환산 26,268건 (표본대상 147,164건 * 17.85%)


0.1% 상당의 수십건 차이는 이해할 수 있으나 이처럼 수만건 차이가 나는 이유가 무엇인가요?

   댓글
사진 설명
사진 설명 통관알리미
안녕하세요
완료율은 사용자 분들이 등록한 운송장 외 신뢰도를 높이기 위해 계속해서 추출한 운송장을 합산하여 대상을 늘리는 구조로 있습니다. 등록 시점에 추출되는 표본에 따라 전날의 표본 대상은 처리된게 상대적으로 적었고, 오늘 추출한 표본은 어제 처리된게 많았으면 변동 폭이 클 수도 있습니다. 
표본추출 방식의 경우 오차가 존재할 수 밖에 없고, 그 대상을 늘릴수록 신뢰도는 올라가지만 기존 대상을 추가하기전 데이터와는 차이가 커질 수도 있습니다. 
대상을 계속해서 늘리지 않고 기존 표본으로 계산하면 오차가 적어 보일순 있으나 더 신뢰할 수 없는 데이터라고 생각하기 때문에 계속해서 데이터를 추가하는 과정을 통해 신뢰도를 높이고 있습니다. 
그렇다고 해도 표본 방식은 전체 대상이 아니라 한계가 있기 때문에 신뢰할수 있는 데이터라고 할 수 없으며 단순 참고용 이상으로 사용하는것은 의미가 없습니다.
14만개중 1만개를 추출하여 통계를 내면 역행하는 일이 없습니다. 하지만 계속해서 1만개 를 추가해서 최종 4만개로 통계를 내면 정확도는 올라갑니다. 하지만 초기 1만개와는 다를수 있습니다. 그 과정중에 있는 값을 보신것 같습니다.
(수정됨)
신고(0) 차단
황**
답변 내용을 일견 수긍할 수 없는 것이 예를 들어 7/3자 표본대상 총건수는 147,164건으로 어제나 오늘 아침이나 지금 현재도 변화가 없다는 점입니다. 
신뢰도를 높이기 위해 새로운 데이터를 추가했다면 당연히 표본대상 건수가 증가해야 하는데 그렇지 않으니 수긍하기 어렵다는 것이지요.

혹시라도 표본대상 전부에 대해 한 건 한 건 관세청 통관물류정보시스템 내 건별 수입화물진행정보를 읽어 완료 건수를 세고 이를 완료율로 변환하여 게시하는 방식이 아니라 

표본대상 전체(2차 모집단 ) 중에서 일정 시간마다  다시 아주 소수를  무작위로 재추출해 이를 분석 표본(3차 표본집단)으로 삼고 이들 안에서 완료 건수를 세는  방식
다시 말해 3차 표본집단 내에서의 완료율을 게시하는 시스템이라면 터무니 없는 수치가 게시된 이유에 대해 이해할 수는 있겠으나

 그럼에도 불구하고 7/4 09:00 대비 15:00 현재  2차 모집단 147천여건 중 24%에 달하는 35천여건의  통관완료건수 차이가 나는 추출 시스템이라면 뭔가 생각치 못한 논리적 결함이 있는 건 아닌지 
점검해 봐야  하지 않나 싶습니다.

참고로 그간 약 보름간 통관알리미 싸이트 내 에이씨티앤코아 평택 소요시간 게시 내용을 아침 저녁으로 엑셀로 다운받아 분석헤 왔는데 이런 큰 차이는 없었습니다.
사진 설명
사진 설명 통관알리미
말씀해 주신 내용을 보고 처음부터 끝까지 관련 로직을 쭉 검토 했는데 데이터를 조회 하는 부분에서 이슈가 있었습니다.
얼마전 시스템 과부하 장애로 인해  동시처리로  조회 대상을 읽어 오는 부분의 조회량을 줄인 부분이 있는데 그 부분에서 대상이 작게 잡혀 최근 등록된 데이터가 요청에서 누락되는 문제가 있었습니다.
간단히 말씀드리면 10000건을 1000개씩 나눠서 요청한다고 가정했을때 일부 조회조건  수정 누락으로 전체 대상이 9천개로 잡혀 최근 1000개는 요청이 안됨(최근 = 보통 당일  데이터 비중이 높음)
최근 운송장이 보통은 여러 통관업체가 섞여있고, 당일 데이터가 아닌 경우도 있어서 인지를 못하고 있었는데, 최근 에이씨티앤코아 운송장이 몰려있어서 퍼센트 차이가 심하게 벌어진것 같습니다.
관련해서 문제를 수정중으로 제보 감사드립니다. 
추가로 통관완료율 계산에 관해 말씀드리면 추출 대상은 최근 1주일 등록된 내 운송장을 기반으로 오전 6시와 오후 12시 두 번 표본 대상 업데이트 및 무작위 추출을 하게 되어 있습니다.
말씀해주신 전체 표본 대상은 해당 시점에 더 추가가 될 수도 있고 추가할 대상이 없으면 그대로 유지 될 수도 있습니다.
추출한 표본의 일부를 대상으로 하지는 않고 있으며 추출된 표본 전체가 완료율에 반영됩니다. 
(수정됨)
사진 설명
사진 설명 통관알리미
오류 제보 감사 의미로 1년 광고제거 넣어 드렸습니다.
감사합니다.