오늘 게시된 에이씨티앤코아 평택 통관완료율에 대한 질문입니다.
7/4 09:00 게시
7/3 전체완료율 6.89%
7/4 12:00 게시
7/3 전체완료율 32.66%, 당일완료율 7.92% ==> 추산 7/3 마감 전체완료율 24.74%
전체완료율 차이
17.85% = 24.74% - 6.89% ==> 완료건수환산 26,268건 (표본대상 147,164건 * 17.85%)
0.1% 상당의 수십건 차이는 이해할 수 있으나 이처럼 수만건 차이가 나는 이유가 무엇인가요?
답변 내용을 일견 수긍할 수 없는 것이 예를 들어 7/3자 표본대상 총건수는 147,164건으로 어제나 오늘 아침이나 지금 현재도 변화가 없다는 점입니다. 신뢰도를 높이기 위해 새로운 데이터를 추가했다면 당연히 표본대상 건수가 증가해야 하는데 그렇지 않으니 수긍하기 어렵다는 것이지요. 혹시라도 표본대상 전부에 대해 한 건 한 건 관세청 통관물류정보시스템 내 건별 수입화물진행정보를 읽어 완료 건수를 세고 이를 완료율로 변환하여 게시하는 방식이 아니라 표본대상 전체(2차 모집단 ) 중에서 일정 시간마다 다시 아주 소수를 무작위로 재추출해 이를 분석 표본(3차 표본집단)으로 삼고 이들 안에서 완료 건수를 세는 방식 다시 말해 3차 표본집단 내에서의 완료율을 게시하는 시스템이라면 터무니 없는 수치가 게시된 이유에 대해 이해할 수는 있겠으나 그럼에도 불구하고 7/4 09:00 대비 15:00 현재 2차 모집단 147천여건 중 24%에 달하는 35천여건의 통관완료건수 차이가 나는 추출 시스템이라면 뭔가 생각치 못한 논리적 결함이 있는 건 아닌지 점검해 봐야 하지 않나 싶습니다. 참고로 그간 약 보름간 통관알리미 싸이트 내 에이씨티앤코아 평택 소요시간 게시 내용을 아침 저녁으로 엑셀로 다운받아 분석헤 왔는데 이런 큰 차이는 없었습니다.
말씀해 주신 내용을 보고 처음부터 끝까지 관련 로직을 쭉 검토 했는데 데이터를 조회 하는 부분에서 이슈가 있었습니다. 얼마전 시스템 과부하 장애로 인해 동시처리로 조회 대상을 읽어 오는 부분의 조회량을 줄인 부분이 있는데 그 부분에서 대상이 작게 잡혀 최근 등록된 데이터가 요청에서 누락되는 문제가 있었습니다. 간단히 말씀드리면 10000건을 1000개씩 나눠서 요청한다고 가정했을때 일부 조회조건 수정 누락으로 전체 대상이 9천개로 잡혀 최근 1000개는 요청이 안됨(최근 = 보통 당일 데이터 비중이 높음) 최근 운송장이 보통은 여러 통관업체가 섞여있고, 당일 데이터가 아닌 경우도 있어서 인지를 못하고 있었는데, 최근 에이씨티앤코아 운송장이 몰려있어서 퍼센트 차이가 심하게 벌어진것 같습니다. 관련해서 문제를 수정중으로 제보 감사드립니다. 추가로 통관완료율 계산에 관해 말씀드리면 추출 대상은 최근 1주일 등록된 내 운송장을 기반으로 오전 6시와 오후 12시 두 번 표본 대상 업데이트 및 무작위 추출을 하게 되어 있습니다. 말씀해주신 전체 표본 대상은 해당 시점에 더 추가가 될 수도 있고 추가할 대상이 없으면 그대로 유지 될 수도 있습니다. 추출한 표본의 일부를 대상으로 하지는 않고 있으며 추출된 표본 전체가 완료율에 반영됩니다.