data.frame에서 조건부 값 대체
루프를 사용하지 않고 조건부로 데이터 프레임의 값을 대체하는 방법을 이해하려고 합니다.제 데이터 프레임은 다음과 같이 구성됩니다.
df <- data.frame(
a = c(11.77, 10.9, 10.32, 10.96, 9.906, 10.7, 11.43, 11.41, 10.48512, 11.19),
b = c(2, 3, 2, 0, 0, 0, 1, 2, 4, 0),
est = numeric(10)
)
df
a b est
1 11.77000 2 0
2 10.90000 3 0
3 10.32000 2 0
4 10.96000 0 0
5 9.90600 0 0
6 10.70000 0 0
7 11.43000 1 0
8 11.41000 2 0
9 10.48512 4 0
10 11.19000 0 0
제가 하고 싶은 것은 가치를 확인하는 것입니다.b
.한다면b
0, 설정하고 싶습니다.est
의 가치로a
.이해는 합니다.df$est[df$b == 0] <- 23
의 모든 값을 설정합니다.est
23까지, 언제.b==0
. 내가 이해할 수 없는 것은 어떻게 설정하느냐는 것입니다.est
정도로a
그 조건이 사실일 때 말입니다.예를 들어,
df$est[df$b == 0] <- (df$a - 5)/2.533
는 다음과 같은 경고를 제공합니다.
Warning message:
In df$est[df$b == 0] <- (df$a - 5)/2.533 :
number of items to replace is not a multiple of replacement length
벡터가 아닌 관련 셀을 통과할 수 있는 방법이 있을까요?
조건부 인덱싱 중이므로df$est
, 대체 벡터를 조건부로 색인화할 필요도 있습니다.df$a
:
index <- df$b == 0
df$est[index] <- (df$a[index] - 5)/2.533
물론, 그 변수는index
일시적인 것일 뿐이고 코드를 좀 더 읽기 쉽게 만들기 위해 사용합니다.한 단계로 작성할 수 있습니다.
df$est[df$b == 0] <- (df$a[df$b == 0] - 5)/2.533
가독성을 높이기 위해서는within
:
df <- within(df, est[b==0] <- (a[b==0]-5)/2.533)
선택한 방법에 관계없이 결과는 다음과 같습니다.
df
a b est
1 11.77000 2 0.000000
2 10.90000 3 0.000000
3 10.32000 2 0.000000
4 10.96000 0 2.352941
5 9.90600 0 1.936834
6 10.70000 0 2.250296
7 11.43000 1 0.000000
8 11.41000 2 0.000000
9 10.48512 4 0.000000
10 11.19000 0 2.443743
다른 사람들이 지적한 바와 같이, 당신의 예에서 대안적인 해결책은ifelse
.
데이터를 사용해 보십시오.:=
연산자:
DT = as.data.table(df)
DT[b==0, est := (a-5)/2.533]
빠르고 짧습니다.에 대한 자세한 내용은 다음 링크된 질문을 참조하십시오.:=
:
언제 사용해야 합니까?:=
오퍼레이터 인data.table
여기 한 가지 방법이 있습니다.ifelse
는 벡터화되고 모든 행에 0 값이 있는지 확인합니다.b
대체합니다.est
와 함께(a - 5)/2.53
만일 그렇다면.
df <- transform(df, est = ifelse(b == 0, (a - 5)/2.53, est))
다른 옵션은 case_where를 사용하는 것입니다.
require(dplyr)
mutate(df, est = case_when(
b == 0 ~ (a - 5)/2.53,
TRUE ~ est
))
이 솔루션은 중첩을 방지할 수 있기 때문에 2가지 이상의 사례를 구별해야 하는 경우 더욱 편리해집니다.if_else
건축물을 짓다.
R-inferno 또는 기본 R-문서는 df$*를 사용하는 것이 여기서 최선의 접근방식이 아닌 이유를 설명합니다.""에 대한 도움말 페이지에서:
"[]에 의한 색인은 원자 벡터와 유사하며 지정된 원소의 목록을 선택합니다.[] 및 [$] 모두 목록의 단일 요소를 선택합니다.주요 차이점은 $는 계산된 지수를 허용하지 않는 반면 []는 허용한다는 것입니다.x$name은 x[["name"과 동일하며 정확한 = FALSE]]입니다.또한, [[]의 부분 매칭 동작은 정확한 인수를 이용하여 제어할 수 있습니다."
를 사용하는 것을 추천합니다.[row,col]
대신 표기법.예:
Rgames: foo
x y z
[1,] 1e+00 1 0
[2,] 2e+00 2 0
[3,] 3e+00 1 0
[4,] 4e+00 2 0
[5,] 5e+00 1 0
[6,] 6e+00 2 0
[7,] 7e+00 1 0
[8,] 8e+00 2 0
[9,] 9e+00 1 0
[10,] 1e+01 2 0
Rgames: foo<-as.data.frame(foo)
Rgames: foo[foo$y==2,3]<-foo[foo$y==2,1]
Rgames: foo
x y z
1 1e+00 1 0e+00
2 2e+00 2 2e+00
3 3e+00 1 0e+00
4 4e+00 2 4e+00
5 5e+00 1 0e+00
6 6e+00 2 6e+00
7 7e+00 1 0e+00
8 8e+00 2 8e+00
9 9e+00 1 0e+00
10 1e+01 2 1e+01
언급URL : https://stackoverflow.com/questions/8214303/conditional-replacement-of-values-in-a-data-frame
'programing' 카테고리의 다른 글
C/Unix의 소켓 쌍() (0) | 2023.09.18 |
---|---|
자동 추가 기능 대 COM 추가 기능 (0) | 2023.09.18 |
DIV 요소를 스크롤할 때 페이지 스크롤을 방지하는 방법은? (0) | 2023.09.18 |
C function 포인터를 void 포인터로 캐스팅 (0) | 2023.09.18 |
C 또는 C++ 구조에 대한 특정 엔디안을 강제할 방법이 있습니까? (0) | 2023.09.18 |